注册 登录
编程论坛 VFP论坛

英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然,我举个例子,你们看看有没有更高效的解决方案?

cssnet 发布于 2025-11-08 12:51, 233 次点击
比如说:大字符串查重。
就类似【论文查重】。
试分析其算法:
首先,读入TXT文档,作为一个大字符串;
然后,遍历数据库中的历史文档(假设有10000个记录),比较其相似度,得到一个近似匹配值;
若二者匹配值大于阈值(比方说,70?80?90?),则判定为.T.。

好吧,请英雄试试琢磨出一个小于5个小时、10个小时、甚至10天10夜的飞速算法!


4 回复
#2
sam_jiang2025-11-08 13:33
这种比较方式估计不太可能优化,更好的办法是重新设计数据库,对论文进行进行关键字匹配,多提取一些特征词,对比关键词的重复率超过某个阈值,发出抄袭告警,最后还得人工审核,毕竟论文的重要性不言而喻,不应该机器判断
#3
cssnet2025-11-08 18:23
以下是引用sam_jiang在2025-11-8 13:33:21的发言:

这种比较方式估计不太可能优化,更好的办法是重新设计数据库,对论文进行进行关键字匹配,多提取一些特征词,对比关键词的重复率超过某个阈值,发出抄袭告警,最后还得人工审核,毕竟论文的重要性不言而喻,不应该机器判断


并非真的是论文,只是一些类似学生作文的小文档。
这种大字符串之间的模糊匹配比对,非常耗时,其时间复杂度,完全取决于源字符串与目标字符串的字节长度——100字节与1000字节,在耗时上,天差地别!
#4
yiyanxiyin2025-11-08 23:09
是要比较两个文本的相似度,是吧, 这个文本模型擅长啊, 推荐一个小模型all-MiniLM-L6-v2, 可以先试一下, 测试可以使用cpu, 但你实际处理数据量大那是需要GPU的
#5
hsfisher3 天前 08:19
种植个草
1