| 网站首页 | 业界新闻 | 小组 | 威客 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
共有 69 人关注过本帖
标题:英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然,我 ...
只看楼主 加入收藏
cssnet
Rank: 5Rank: 5
等 级:职业侠客
威 望:5
帖 子:523
专家分:380
注 册:2013-10-4
结帖率:100%
收藏
 问题点数:50 回复次数:3 
英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然,我举个例子,你们看看有没有更高效的解决方案?
比如说:大字符串查重。
就类似【论文查重】。
试分析其算法:
首先,读入TXT文档,作为一个大字符串;
然后,遍历数据库中的历史文档(假设有10000个记录),比较其相似度,得到一个近似匹配值;
若二者匹配值大于阈值(比方说,70?80?90?),则判定为.T.。

好吧,请英雄试试琢磨出一个小于5个小时、10个小时、甚至10天10夜的飞速算法!


搜索更多相关主题的帖子: 小时 例子 英雄 运行 解决方案 
昨天 12:51
sam_jiang
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:14
帖 子:1046
专家分:1576
注 册:2021-10-13
收藏
得分:0 
这种比较方式估计不太可能优化,更好的办法是重新设计数据库,对论文进行进行关键字匹配,多提取一些特征词,对比关键词的重复率超过某个阈值,发出抄袭告警,最后还得人工审核,毕竟论文的重要性不言而喻,不应该机器判断
昨天 13:33
cssnet
Rank: 5Rank: 5
等 级:职业侠客
威 望:5
帖 子:523
专家分:380
注 册:2013-10-4
收藏
得分:0 
以下是引用sam_jiang在2025-11-8 13:33:21的发言:

这种比较方式估计不太可能优化,更好的办法是重新设计数据库,对论文进行进行关键字匹配,多提取一些特征词,对比关键词的重复率超过某个阈值,发出抄袭告警,最后还得人工审核,毕竟论文的重要性不言而喻,不应该机器判断


并非真的是论文,只是一些类似学生作文的小文档。
这种大字符串之间的模糊匹配比对,非常耗时,其时间复杂度,完全取决于源字符串与目标字符串的字节长度——100字节与1000字节,在耗时上,天差地别!
昨天 18:23
yiyanxiyin
Rank: 16Rank: 16Rank: 16Rank: 16
等 级:版主
威 望:9
帖 子:311
专家分:2272
注 册:2023-6-29
收藏
得分:0 
是要比较两个文本的相似度,是吧, 这个文本模型擅长啊, 推荐一个小模型all-MiniLM-L6-v2, 可以先试一下, 测试可以使用cpu, 但你实际处理数据量大那是需要GPU的
昨晚 23:09
快速回复:英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为 ...
数据加载中...
 
   



关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.686817 second(s), 10 queries.
Copyright©2004-2025, BC-CN.NET, All Rights Reserved