英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然，我举个例子，你们看看有没有更高效的解决方案？ - VFP论坛 - 编程论坛

| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛 |

编程论坛 → 数据库技术 → 『 VFP论坛』 → 英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然，我举个例子，你们看看有没有更高效的解决方案？

我的收件箱(0)

共有 69 人关注过本帖

标题：英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然，我 ...

只看楼主加入收藏

cssnet

帅哥哟，离线，有人找我吗？

Rank: 5

Rank: 5

等　级：职业侠客
威　望：5
帖　子：523
专家分：380
注　册：2013-10-4
结帖率：100%

收藏

问题点数：50 回复次数：3

英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然，我举个例子，你们看看有没有更高效的解决方案？

比如说：大字符串查重。
就类似【论文查重】。
试分析其算法：
首先，读入TXT文档，作为一个大字符串；
然后，遍历数据库中的历史文档（假设有10000个记录），比较其相似度，得到一个近似匹配值；
若二者匹配值大于阈值（比方说，70？80？90？），则判定为.T.。

好吧，请英雄试试琢磨出一个小于5个小时、10个小时、甚至10天10夜的飞速算法！

搜索更多相关主题的帖子: 小时　例子　英雄　运行　解决方案　

发帖时间

昨天 12:51

sam_jiang

帅哥哟，离线，有人找我吗？

Rank: 10

Rank: 10

Rank: 10

等　级：贵宾
威　望：14
帖　子：1046
专家分：1576
注　册：2021-10-13

收藏

得分:0

这种比较方式估计不太可能优化，更好的办法是重新设计数据库，对论文进行进行关键字匹配，多提取一些特征词，对比关键词的重复率超过某个阈值，发出抄袭告警，最后还得人工审核，毕竟论文的重要性不言而喻，不应该机器判断

发帖时间

昨天 13:33

cssnet

帅哥哟，离线，有人找我吗？

Rank: 5

Rank: 5

等　级：职业侠客
威　望：5
帖　子：523
专家分：380
注　册：2013-10-4

收藏

得分:0

以下是引用sam_jiang在2025-11-8 13:33:21的发言：

这种比较方式估计不太可能优化，更好的办法是重新设计数据库，对论文进行进行关键字匹配，多提取一些特征词，对比关键词的重复率超过某个阈值，发出抄袭告警，最后还得人工审核，毕竟论文的重要性不言而喻，不应该机器判断

并非真的是论文，只是一些类似学生作文的小文档。
这种大字符串之间的模糊匹配比对，非常耗时，其时间复杂度，完全取决于源字符串与目标字符串的字节长度——100字节与1000字节，在耗时上，天差地别！

发帖时间

昨天 18:23

yiyanxiyin

帅哥哟，离线，有人找我吗？

Rank: 16

Rank: 16

Rank: 16

Rank: 16

等　级：版主
威　望：9
帖　子：311
专家分：2272
注　册：2023-6-29

收藏

得分:0

是要比较两个文本的相似度，是吧，这个文本模型擅长啊，推荐一个小模型all-MiniLM-L6-v2，可以先试一下，测试可以使用cpu, 但你实际处理数据量大那是需要GPU的

发帖时间

昨晚 23:09

快速回复：英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为 ...

关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有，并保留所有权利。

Powered by Discuz, Processed in 0.686817 second(s), 10 queries.
Copyright©2004-2025, BC-CN.NET, All Rights Reserved