品牌升级,查看新版
4000-058-056
品牌全面升级,论文检测进入“PaperRight”时代!

论文抄袭检测系统的构建和应用


2012年11月28日 | 作者: paperrater | 分类: 行业动态 | 来源:PaperRater论文检测系统

  1、系统构建的背景。如何杜绝抄袭?这是一个困扰着很多老师的问题,也是不同学科都存在的现象。从根本上去杜绝抄袭需要学校从多个方面去解决。首先是从道德层面上去加强学生的道德意识,加强大学生的诚信教育已经刻不容缓。其次是完善考核制度,增加考核方式等。另外,如何科学的评定学生的作业,从作业中发现抄袭者和雷同度是一个迫切解决的实际问题。基于这个角度,我校计算机系开发了电子作业抄袭检测系统,它的开发为老师“打假”提供了一个有力的工具,并为老师进行作业评定以及敦促学生自主学习起到了重要的作用。
   
      2、系统设计的主要设计思路 目前并没有专门针对计算机类实验课程的电子作业抄袭检测的工具。本系统主要的设计思路是采用序列比对的方法来进行相似度计算,结合电子作业的特点对其进行量化和分析。实现了可以支持程序代码和文本的混合检测系统。算法的设计主要分为作业预处理、相似度计算、聚类分析三个模块。
   
      3、应用及分析计算机课程分为两大类:面向计算机专业学生的专业课程以及面向全校非计算机专业的计算机公共基础课程。从受众面广的非计算机专业学生学习的计算机基础课程中,挑选了 “程序设计基础(C)”课程进行作业检测的应用测验。检测的电子作业主要有两种格式:。C或。CPP的源程序文件、。DOC或。TXT的文本文件。
   
      4、检测步骤 第一步导入作业模板,模板可以是老师每次布置的实验内容和要求。或者是老师针对某些章节给出的程序框架。由于这一部分对于每个同学都是相同的,所以利用模板内容的相似度更方便于作业相似度的计算。第二步导入学生信息,学生信息主要包含学生学号和姓名两部分。可以由EXCEL中直接导入,已可以复制粘贴到检测系统中。第三步导入学生作业,学生作业格式可以是源程序文件或者文本文件。要求文件名以学生自己的学号命名。导入作业过程中用户从指定目录导入学生作业,系统根据学号进行自动匹配。第四步抄袭检测,根据用户事先设定的阈值对导入的学生作业进行相似度计算,并以二维表格和聚类图形的形式显示比对后的结果。
   
      5、实验数据及分析 选取非计算机专业2010级两个班级为对象做了多次测试,选取其中一次实验来做阐述和说明。
   
    (1)不同班级同一目标作业测试目标作业选取了《程序设计基础(C)》的第9次实验:字符数组和字符函数,并抽取有效作业若干。
   
     从测试结果可以看出:作业相似度两两比对的结果以二维表格的形式显示,并用红、蓝两种不同背景色代表相似度的强弱,检测结果一目了然。此次实验得出相同目标作业前提下不同班级的作业相似度值不同。在B班不知情的情况下平均相似度值远远高于A班。从对学生的作业检测情况中反映出了不同学生作业的完成情况及真实性,对于教师掌握学生个体的学习程度之间的差距有了直观的数据分析。从而可以随时调整教学并进行动态的跟踪。
   
    (2)同一班级相似度聚类分析当相似度比对结果较多时,可以通过可视化聚类分析功能得到准确定位。根据检测结果对B班进行聚类分析,得出结果如图3。
   
     从聚类分析结果得出的图示中可以直观的看出学生之间抄袭的情况。线段的粗细代表着两两之间的相似度并成正比。结合聚类的分析结果,确定抄袭学生的范围,然后根据老师观察学生的电子作业内容来确定抄袭。