|
网站首页
|
业界新闻
|
小组
|
威客
|
人才
|
下载频道
|
博客
|
代码贴
|
在线编程
|
编程论坛
|
登录
注册
短消息
我发表的主题
我参与的主题
我收藏的贴子
我上传的附件
我下过的附件
编辑个人资料
我的博客
用户控制面板
搜索
道具
恢复默认风格
碧海青天
秋意盎然
棕红预览
粉色回忆
蓝雅绿
紫色淡雅
青青河草
e点小镇
橘子红了
红红夜思
水晶紫色
雪花飘飘
新年快乐
风格
短消息
论坛展区
帮助
编程论坛
→
数据库技术
→
『 VFP论坛 』
→ 英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然,我举个例子,你们看看有没有更高效的解决方案?
我的收件箱(0)
共有
69
人关注过本帖
标题:
英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然,我 ...
只看楼主
加入收藏
cssnet
等 级:
职业侠客
威 望:
5
帖 子:523
专家分:380
注 册:2013-10-4
结帖率:
100%
楼主
收藏
问题点数:50 回复次数:3
英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为然,我举个例子,你们看看有没有更高效的解决方案?
比如说:大字符串查重。
就类似【论文查重】。
试分析其算法:
首先,读入TXT文档,作为一个大字符串;
然后,遍历数据库中的历史文档(假设有10000个记录),比较其相似度,得到一个近似匹配值;
若二者匹配值大于阈值(比方说,70?80?90?),则判定为.T.。
好吧,请英雄试试琢磨出一个小于5个小时、10个小时、甚至10天10夜的飞速算法!
搜索更多相关主题的帖子:
小时
例子
英雄
运行
解决方案
昨天 12:51
举报帖子
使用道具
赠送鲜花
sam_jiang
等 级:
贵宾
威 望:
14
帖 子:1046
专家分:1576
注 册:2021-10-13
第
2
楼
收藏
得分:0
这种比较方式估计不太可能优化,更好的办法是重新设计数据库,对论文进行进行关键字匹配,多提取一些特征词,对比关键词的重复率超过某个阈值,发出抄袭告警,最后还得人工审核,毕竟论文的重要性不言而喻,不应该机器判断
昨天 13:33
举报帖子
使用道具
赠送鲜花
cssnet
等 级:
职业侠客
威 望:
5
帖 子:523
专家分:380
注 册:2013-10-4
第
3
楼
收藏
得分:0
以下是引用
sam_jiang
在2025-11-8 13:33:21的发言:
这种比较方式估计不太可能优化,更好的办法是重新设计数据库,对论文进行进行关键字匹配,多提取一些特征词,对比关键词的重复率超过某个阈值,发出抄袭告警,最后还得人工审核,毕竟论文的重要性不言而喻,不应该机器判断
并非真的是论文,只是一些类似学生作文的小文档。
这种大字符串之间的模糊匹配比对,非常耗时,其时间复杂度,完全取决于源字符串与目标字符串的字节长度——100字节与1000字节,在耗时上,天差地别!
昨天 18:23
举报帖子
使用道具
赠送鲜花
yiyanxiyin
等 级:
版主
威 望:
9
帖 子:311
专家分:2272
注 册:2023-6-29
第
4
楼
收藏
得分:0
是要比较两个文本的相似度,是吧, 这个文本模型擅长啊, 推荐一个小模型all-MiniLM-L6-v2, 可以先试一下, 测试可以使用cpu, 但你实际处理数据量大那是需要GPU的
昨晚 23:09
举报帖子
使用道具
赠送鲜花
4
1/1页
1
快速回复:
英雄们对于我动辄一个程序运行5个小时、10个小时、甚至10天10夜不以为 ...
数据加载中...
关于我们
|
广告合作
|
编程中国
|
清除Cookies
|
TOP
|
手机版
编程中国
版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.686817 second(s), 10 queries.
Copyright©2004-2025, BC-CN.NET, All Rights Reserved