品牌升级,查看新版
4000-058-056
品牌全面升级,论文检测进入“PaperRight”时代!

论文检测技术两种算法介绍


2012年11月24日 | 作者: paperrater | 分类: 行业动态 | 来源:PaperRater论文检测系统

对于论文抄袭检测技术我们通常所了解的是基于字符串比较的方法,而对于基于词频统计的方法还不是很了解。
      
     基于字符串比较的方法也称为数字指纹法,这类方法通过某种选取策略在文档中取一些字符串作为“指纹”,把指纹映射到Hash表中,最后统计Hash表中相同的指纹数目或者比率,作为文本相似度依据。
  
     基于词频统计的方法也称为基于语义的方法。词频统计法源于信息检索技术中的向量空间模型,该类方法首先都要统计每篇文档中各个单词的出现次数,然后根据单词频度构成文档特征向量,最后采用点积、余弦或者类似方式度量两篇文档的特征向量,以此作为文档相似度的依据。
      
     现在多数论文检测系统使用的是基于指纹的比对方法,这种算法相对来说比较简单实用,基本上能测出论文重复的地方,但对于一些经过大幅度修改的论文来说,检测的结果会很小,就无法辨别出是否抄袭,而基于词频的检测方法则较复杂,他先得提取相关词频数,进而确定文章的主要语义,与现有的语义对比得出相似度结果。