品牌升级,查看新版
4000-058-056
品牌全面升级,论文检测进入“PaperRight”时代!

论文抄袭检测系统研究综述


2014年05月19日 | 作者: paperrater | 分类: 行业动态 | 来源:PaperRater论文检测系统

作为学术审稿的“第三只眼”,论文抄袭检测系统自2008年研制试用到2010年系统升级,已引起了学术界的高度关注,截至2012年作者付梓之际,CNKI数据库中以“学术不端检测系统”“AMLC”“SMLC”“TMLC”为主题的研究文献共计41篇。从这些已发表的文献来看,在具体启用、操作、接受论文抄袭检测系统的过程中,人们从初始的盲目使用到随后的理性认知,逐步采取了审慎、科学、客观的态度,从而形成了对检测系统多层面、深层次地理解与把握。

一、有效性的认同

在已发表的论文中,研究者无一例外首肯了论文抄袭检测系统的使用,有效地防止了一批抄袭、剽窃、伪造、篡改、不当署名、一稿多投文章的发表;与以往检测文章方法相较,其方便、快捷、高效的优点是显而易见的。陈欣编辑在应用了AMLC后的体会是:(1)上传文件后,编辑能够很快得到检测结果,不仅显示文字复制比,而且列出了相似文献,给编辑初审稿件提供了方便。(2)有利于选择审稿专家。通过AMLC列出相似文献,显示被相似文献的相关作者信息,从而寻找出专业对口专家。(3)有利于判断稿件的修改情况。史成娣编辑更是佐以2008年和2009年的实例论证了该系统使用前和使用后的检测成效,使陈欣编辑的成效分析更具说服力。作为少数研究学位论文不端行为的作者,于晓舟发表了自己的看法,他认为:TMLC系统的运用,使中国地质大学从导师到博士生都高度关注TMLC检测结果,增强了师生质量意识,撰写和修改论文也更加严肃认真。其次,强化了论文撰写规范。最后,明确了质量保证重点。赵国惠编辑在详细介绍论文抄袭检测系统所具有的检测、对比分析、管理和自动生成四个主要功能的基础上,重点分析了系统对学术道德建设产生的积极影响,即:预防和打击学术不端行为;提高编辑的工作效率;提升期刊的学术影响力。此文与其他文章相较,其对系统功能的总结更为明晰、全面。

上述研究者的研究标明,论文抄袭检测系统在很大程度上实现了其最基本的功能和研制者开发的初衷,即:主要实现论文内容的学术诚信检查功能,检测论文是否存在抄袭、一稿多投学术不端行为;并按照各种不端行为的严重程度给出一个权值进行度量;秒级响应速度,实时检测反馈。

二、局限性的挖掘

随着对论文抄袭检测系统的大量使用,研究者在实践中遇到了不少问题,甚至让一些学者担心“学术不端”会成为“学术不公”。孔琪颖、蔡斐、张利平、徐晓在2009年5月,也就是系统推广使用不到半年的时间内,发现了检测文章的文字复制比与抄袭率非呈正相关性的几种情况,提醒使用者正确看待系统检测结果,要具体问题具体分析。这篇文章的发表对进一步研究、认知论文抄袭检测系统起到了抛砖引玉的作用。随后,研究者在公开发表的论文中,结合实际检测案例,纷纷指出系统存在的不足,诸如《论文抄袭检测系统使用体会》《学术不端行为以及对AMLC系统运用的思考》等等,而《医学科技期刊应用<科技期刊论文抄袭检测系统>判断抄袭时应慎重对待的几种情况》《论文抄袭检测系统存在的问题及使用的建议》《使用论文抄袭检测系统如何把握好合理使用的“度”》《科技期刊论文抄袭检测系统使用的建议》则是专文对这一问题进行研讨。研究者对系统局限性的挖掘,归纳起来大致有三个方面:

(一)检测盲区的存在

靖华在实际使用中,发现AMLC系统存在以下问题:第一,语言上的限制。大量的外文资料、论文并没有被收录,因此对“跨国抄袭”的作品无法准确检测。第二,时间上的滞后。待审、待发表的未公开文章以及刚发表还没被AMLC系统收录的文章,这些稿件由于时间差而逃过了AMLC的检查。第三,数据库的有限性。AMLC并没有收录全部的中文数据库,诸如网络文献,我国的法律、法规、条例等。至于比对数据不全面的原因,大部分研究者语焉不详,大概是认为因素过于显性,无外乎是人力、技术支持不够,因此不予深究,而唯一一篇涉及揭示比对数据疏漏形成的文章则道出了另一个重要原因,“由于现在CNKI和万方争相采取和各个编辑部签订独家合作的协议,如果某一编辑部签订这一协议后,就势必造成另一数据库该刊物的原始数据文献缺失,也就造成了现今国内没有一家数据库是完整收录所有刊物文献数据的。”

针对AMLC存在的不足,研究者多从以下方面提出了建议:英文文献收录的增加、更新速度的加快、中文论文数据库收录的保证。这些建议虽为方向性的,不具有具体的实际操作性,但为论文抄袭检测系统的进一步改进提供了参照指导,因此,还是具有一定积极意义的。

(二)检测效果不理想

孔琪颖、蔡斐、张利平、徐晓在初审稿件时无意中发现,同一篇文章用不同的格式检测,文字复制比分别为46%和26%,相差20个百分点。通过对多次检测结果的考察,他们总结出:文章格式,文中的数字、公式、图表、符号及字母均会程度不同地影响检测结果的真实性。

这一点笔者也深有同感,根据反复实践,笔者发现论文抄袭检测系统对文件的doc格式检测效果最佳,因此,建议作者投稿、编辑审稿时最好将文章改为doc格式。至于公式、图表的抄袭,更多的研究者则是把解决之方希冀于研制者对图表、公式、数据抄袭和篡改等行为检测功能的开发上来。目前,我认为不妨我们借鉴一下孔琪颖编辑根据工作实践总结出的经验:他建议只要文章的复制比大于5%,那么就要特别留意公式引导段落和表题、图题,通过比对数据库从而识别该文是否存在抄袭。这一方法不失为眼下较可行的解决问题之径。

(三)无法甄别合理引用

对被检测文章的引用部分与抄袭部分,论文抄袭检测系统不能确切区分;而不加标注的合理引用与不当引用,检测系统也不能有效识别,二者均显示为高重合率。

石鹤等人指出,像退稿重投、同一作者撰写的有延续性的研究成果、综述类文章文字重合度均易较高。此外,不同作者研究同一组资料,对这些资料的描述;研究性论文在讨论部分不引用他文不足以说明问题;统计软件统计方法的一般描述都难免出现高文字重合度,而对于论文抄袭检测系统来说便亮起了“红灯”。石鹤是从总的方面来谈检测数字高但不属于抄袭的情况,吉家友和刘海清则就具体学科指出了检测系统存在的问题。吉家友指出:诸如关于时事和政治方面的文章,像基本概念、基本内涵、基础理论、领导人的讲话,特别是关于某一方面定性的论述的引用是不好用自己的语言对其进行描述的,是必须准确的,否则就有可能成为曲解。而像历史学方面的文章,最重视的就是史料,对有限史料的复述、引证,论文的重复率亦会很高。刘海清等人针对医学科研的现状及写作特点,指出:用他人的方法重复自己的实验这是医学科研的现状,加之医学论文的遣词造句比较简单和通用,因此,在引言、临床资料、方法、结果、讨论的固定书写部分中容易出现文字重复的现象。

论文抄袭检测系统的智能程度不高,像上述列举的情况,系统往往会提示涉嫌抄袭,而事实上,很多时候这些红色字体是属于合理引用。综上,我们可以看到,系统在查全率(第一个问题“检测盲区的存在”)和查准率(第二、第三个问题“检测效果不理想”“无法甄别合理引用”)方面还有待提高。研究者对这些问题的发现,为我们进一步正确使用系统、客观审稿敲响了警钟,也为系统的制定者、改进者提供了相当有益的借鉴,使得系统的研发更加完善,从而促使制定者、使用者、研究者之间的信息畅通有了良性的循环。

三、参考性的认知

局限性的发现使研究者清醒地认识到,论文抄袭检测系统只是编辑审稿的一个参考工具,而非权威依据,它提供的数据只是一个参照权值,“使用AMLC可快速、准确检测学术不端论文,它可作为编辑审稿时的一个辅助性工具;但在实际使用中应认识到,稿件的情况比较复杂,要认真对待每一篇稿件,正确利用AMLC的检测结果。要知道,它只是一部机器,所产生的报告只能用作参考,而不能取代专家、主编和编辑在审稿过程中的主观能动性。”其实,这是使用者和研究者初始就应该注意到的,毕竟,论文抄袭检测系统只将可疑文字称为“重合率”而没有称为“抄袭率”。赵蔚在《学术不断检测结果的修正标准初探》一文中对“文字复制比”与“文字抄袭率”进行了明确地区分,认为二者的性质是截然不同的。

因此,重合率不等于抄袭率的认识使研究者提出了人机一体、多种网络检索工具并举的审稿措施。于海、王巍针对不同问题,采用了不同的解决方式:(1)对于系统检测出现学术不端空白的稿件,编辑除了通过Google等搜索引擎进行补充搜索外,还要借助审稿专家丰富的知识、才学将稿件与所掌握的资料、文献进行比对。(2)对于检测出有文字复制比的稿件,编辑不能单纯依赖红色雷同部分的多少来决定稿件的取舍,这是缺乏科学性的。编辑应认真阅读相似文献,仔细区分稿件中的重合部分是合理引用还是不当引用。作者不仅详细地提出了应对之策,而且就如何区分什么是合理引用、什么是不当引用作了较为具体的解释,使读者一目了然。

张放则进一步补充道:“检测次数至少两遍为宜,有些文章初次检测时系统显示为合格,但1个月后检测相似度极高”。故而他建议除在初审对投稿进行检测外,发表前应再做一次检测,多次检测可防止因上传间隔时间长而带来的一稿多投、提前发表的学术不端行为。

四、标准性的讨论及界定

目前,由于没有相关部门对论文重复率为多少是抄袭的定性,因此,学界就论文抄袭标准的界定形成了两种观点:

(一)对稿件重复率有较严格的客观界定,并希望官方出台评判标准。

这个标准的界定一般为:重复率达到40%或50%视为抄袭。如《上海电机学院学报》编辑部对重复率达到40%的稿件实行无条件退稿。对重复率占到40%以下的稿件,又具体划分为三个等级:30%—40%要求作者修改,降低重复率;25%—30%送一审并要求作者降低重复率;25%以下的可直接送学术专家一审。《科技期刊学术不端检测系统在期刊出版中的应用分析》一文也持相同观点,《内蒙古电力技术》编辑部将文字复制比达50%的文章视为抄袭,直接退稿,并将其列为本刊来稿审查制度内容之一。

对“编辑部应制定统一标准,以便各个编辑按照相同的标准处理来稿”“建议相关部门尽快出台一个明确、统一的抄袭剽窃的判别标准”的做法和呼声我是表示理解的,希望编辑在使用系统审稿时有章可循,避免出现争议和混乱,这本身并没有错,但是单以百分比作为抄袭标准的界定有时也会失之公允。且不说本文前面指出的重复率不等于抄袭率的几种情况,单说社科期刊中的书评,自会引用被评对象(即书)中的很多内容,其百分比不止50%;科技期刊中,《护理学报》列举了一篇重复率为67%的文章,该文虽大量引用其学位论文中的实验资料、方法等,但讨论角度不同,并更深入地分析了其应用价值,鉴于此,学报发表了这篇文章。故而,我还是比较同意下面这种观点。

(二)对稿件重复率没有明确界定,依现有法律、法规视具体情况做具体分析。

江霞等人根据AMLC提供的文字复制比判断抄袭行为时就遇到了几种特殊情况,因而她提醒编辑人员应慎重判断抄袭行为、具体情况具体分析,不宜简单、机械地将重复句子、段落判断为抄袭。赵茜对稿件重复率数字的界定看得更为“模糊”、“宽泛”,而对抄袭的界定则更为客观、全面。她既不对高文字复制比的稿件轻易下抄袭的定论,甚至认为“文字复制比在40%以下的稿件并非都存在问题,有些重合的文字还是属于合理使用的范围”;也不贸然断定低重复率的文章就不存在严重的学术不端行为,她举例西南交通大学黄某,其论文文字重复率虽为7%,但所引文字为该论文的理论核心部分,因此属于学术不端行为。赵茜以《著作权法》为依据,从重复的目的、内容、形式、数量几方面综合衡量、客观判断。

笔者认为,上述方法是可行的。已有的法律、法规明确了哪些行为属于抄袭,如果再出台细化、量化标准,只能使编辑在总思想指导下的视具体情况具体分析成为了在量化的条条框框中生搬硬套、一概论之。重复率究竟多少比例是合理的、标准的,我认为,研究者不必过于纠结于此,“处理学术问题更多还是要遵循学术规律,采取学术办法”。所以,对文章重复段落是“抄袭”还是“合理引用”,需要编辑将分析前的比例与分析后的比例综合考察,最根本的是要找到抄袭的事实。

此外,值得一提的是,现在编辑部收到不少研究生投来的学位论文的拆分研究成果,其整篇文章因提前被学位论文数据库收录,因此检测文字复制比通常在80%以上,对于这部分高文字复制比的拆分文章,编辑部处理意见不一。金铁成副编审通过长时间地思考,为我们提供了较为合理的处理办法。他认为《中国优秀硕士学位论文全文数据库》、《中国博士学位论文全文数据库》具有CN号和ISSN号,属于正式的学术电子期刊,所以作者再发表论文中的部分内容就属于重复发表。因此,他建议作者将论文拆分先发表,然后授权CNKI收录其学位论文整体,这既不违背著作权法中有关汇编作品的相关规定,也符合论文数据库收录稿件的第二条投稿须知。

五、保密性的呼吁

对于已经确认存在抄袭的投稿,研究者所持的态度基本一致,即“对期刊来稿进行学术不端检测,其结果应及时反馈给作者本人,提醒和警示作者改正,但不宜公之于众或随意泄密。”[27]这样做出于两方面的考虑:第一,尚未公开发表的学术论文学术不端行为所引发的不良影响较已经公开发表的论文要小,而且可以通过退稿意见或修改意见消除不良影响。第二,保护作者声誉、尊重作者人格,这也是编辑服务作者的体现。

胡朝明副研究员在2012年4月,于《论文抄袭检测系统的使用与建议》一文中提出了疑问:“检测报告是否对参检人员本人公布?公布程度如何?只公布数值,还是整个报告全部公布?这些问题都应该深入研究并解决,不然在具体工作中很容易引起纠纷。”其实,关于这一点早在2011年杜新征编辑就明确指出:“对期刊来稿进行学术不端检测,其结果应及时反馈给作者本人”,文中用“结果”而没有用“内容”二字,也就是说只能告诉作者文章存在抄袭,至于抄袭范围与抄袭率不宜也不应该告诉作者。根据笔者的工作经验,如果为作者提供了抄袭范围,作者仅会对文中指出的地方做字句的改动,这种只作语序调整篡改他人观点为己用的做法依然是抄袭行为,但却能很轻易地避开系统的检测,成为系统、编辑及专家未能及时发现的隐性抄袭。

使用论文抄袭检测系统坚持保密原则除上述方面外,还有另一层意思,即系统使用仅限于各合作单位内部,像AMLC和SMLC,是需要各编辑部签订相关保密协议,通过建立账号和密码才能使用的。

六、其他

除了上述几点外,研究文章还或多或少地涉及到另外两个和论文抄袭检测系统有关的问题:

一个是反检测手段和系统的生成。学术不端检测系统引入的初衷是为了推进“反学术不端行为”,但让人始料未及的是,它同时又成为学术不端的“升级”因素。为了通过系统的检测,很多作者玩起了文字功夫,将他人文章中的句子、段落进行语序调整或支离分解,或者用网上免费在线翻译工具将论文进行两次双向翻译,更有甚者,将他人论文中的文字转换成图片作为己用(当然是少量的用)。对此,熊伟一针见血地指出了其实质———“一种升级版的造假”,其后果只会使人把学术研究的重点放在形式上、表面上的创新,而忽视内容、方法的创新,这种本末倒置的做法严重阻碍了学术的发展。而这仅仅是被检测者的一些做法,如今社会上更是出现了一些支持被检测者实施学术不端行为的“帮凶”,CNKI在《关于“论文抄袭检测系统”使用的声明》中谈到:一些用户通过淘宝等网络交易平台向作者收费,帮其排查论文。无怪乎就高校引入论文抄袭检测系统问题对网民进行调查时,有77.01%的网民对系统的推广持不乐观态度。

对于以上反检测手段和系统,除了CNKI声明的暂停账号或依法追究责任外,研究者都给出了比较行之有效的解决办法,像论文中存在的双向翻译、英译汉的抄袭行为,陈静建议可使用中科院董振东等人研发的HowNet(是一部比较详尽的语义知识词典);对于句子、段落语序的改动,李明建议利用各种网络数据库比对同篇名和同作者名的文章。

尽管就反检测手段和系统的论题仅占发表论文的很小一部分,但足以让使用者和研发者对系统带来的双面影响(特别是负面影响)引起高度重视,它也应成为我们下一步研讨的重点及难点问题。

另一个是对学术不端行为发生根源的探析和方法的解决。黄杰揭示出:考评机制,社会的急功近利心理,制度执行力度不够、法治观念薄弱是出现学术不端的原因。就此,史书侠提出应对措施,如加强学术道德、完善相应法规建设、设立独立的专门鉴定机构、编辑部门把关、应用论文抄袭检测系统检查等等。然而,由于论文抄袭检测系统的研究者基本为学报编辑部的编辑人员,使其研究视角不够开阔,缺乏多样化。应该说此类研究仍处在起步阶段,尤其是社科期刊论文抄袭检测系统、学位论文学术不端行为检测系统、大学生论文抄袭检测系统等均存在很大的研究空间。