4.3 分词技术 10
4.4 TF-IDF权重 14
4.5 本章小结 15
5 系统的设计 15
5.1 系统结构 15
5.2 系统设计原则 16
5.3 系统功能模块设计 16
5.4 模块活动图 18
5.5 模块顺序图 19
5.6 文件结构设计 20
6 系统的实现 22
6.1 系统主界面 22
6.2 预处理模块的实现 22
6.3 相似度计算模块的实现 24
6.4 抄袭对比查看模块的实现 27
6.5 系统运行环境 28
结论 29
致谢 31
参考文献 32
1 绪 论
1.1 课题研究的背景和意义
随着校园网和无线宽带的不断普及,大学生的学习和生活发生了巨大的改变。学生开始利用网络搜索各种学习资源和参考资料、提交作业、直接基于网络进行学习。网络已逐渐溶入学生们的生活,为他们服务,给他们提供便利,互联网的便利在一定程度上改变了普通人获取信息资源的方式和地位上的不对称,但是在这个开放的平台上因为复制粘贴的便利也造成了抄袭行为的泛滥。
抄袭的行为和手段日趋多样化和隐蔽化。根据2003年萨特勒在莱比锡大学进行的调查表明,90%的大学生表示原则上都能接受抄袭因特网上文章的做法,其中25%的承认在大学期间“做过弊”,即把别人在因特网上发表的文章稍作修改,在不说明来源也不核对真伪的情况下作为自己的作业交给老师,甚至有2%的学生不做任何修改,原封不动地交给老师。现在抄袭现象的严重性已达到有许多学生把抄袭当成一种习惯,单纯靠对学生的思想教育已经难以收到理想的效果,因此我们需要一些相对“消极”的手段来对抄袭者予以处罚,这就需要高效率的检测手段来确定抄袭行为。但按照传统的批改作业或者试卷的模式需要耗费大量的具有专业背景的人力资源且效率低下。同时学生为了逃脱抄袭嫌疑,他们会对抄袭的作业“改头换面”,因此抄袭手段也就不断的“进步”,这给任课教师的教学带来了相当大的麻烦,影响了教师的教学工作效率,也无法保证考核的准确性、客观性和公平性。
此外,在知识产权领域,作业是学生自己创作的知识产品,不经过作者的同意就使用,是侵权的行为。随着人们对知识产权认知的提高,高效率的作业检测工具的需求就越来越强烈。
因此,无论从辅助教学的角度还是基于知识产权保护的需要,我们都有必要对适用性强的有效的抄袭识别技术及其应用展开研究。
1.2 国内外研究状况和发展趋势
1.2.1 国外情况
1.2.2 国内情况
1.3 论文组织结构
第一部分是绪论,介绍了选题的背景和意义,并简单介绍了抄袭检测系统使用的开发工具和使用的算法。并对国内外抄袭检测技术的研究历史现状和发展前景作了分析。