英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然，我举个例子，你们看看有没有更高效的解决方案？ - 编程论坛

#2

sam_jiang2025-11-08 13:33

这种比较方式估计不太可能优化，更好的办法是重新设计数据库，对论文进行进行关键字匹配，多提取一些特征词，对比关键词的重复率超过某个阈值，发出抄袭告警，最后还得人工审核，毕竟论文的重要性不言而喻，不应该机器判断

#3

cssnet2025-11-08 18:23

以下是引用sam_jiang在2025-11-8 13:33:21的发言：

这种比较方式估计不太可能优化，更好的办法是重新设计数据库，对论文进行进行关键字匹配，多提取一些特征词，对比关键词的重复率超过某个阈值，发出抄袭告警，最后还得人工审核，毕竟论文的重要性不言而喻，不应该机器判断

并非真的是论文，只是一些类似学生作文的小文档。
这种大字符串之间的模糊匹配比对，非常耗时，其时间复杂度，完全取决于源字符串与目标字符串的字节长度——100字节与1000字节，在耗时上，天差地别！

#4

yiyanxiyin2025-11-08 23:09

是要比较两个文本的相似度，是吧，这个文本模型擅长啊，推荐一个小模型all-MiniLM-L6-v2，可以先试一下，测试可以使用cpu, 但你实际处理数据量大那是需要GPU的

#5

hsfisher3 天前 08:19

种植个草