第二部分首先分析了导致抄袭现象越来越严重的原因,结合了国内外几个典型的抄袭检测系统来介绍相关的检测技术,介绍其优劣。
第三部分对系统的需求分析。从应用需求角度分析系统需实现的主要功能。从功能需求的角度介绍了系统具体功能模块的划分。
第四部分分析了抄袭检测系统的技术需求。详细介绍了抄袭检测实现过程中使用的空间向量模型的相似度计算,TF-IDF算法,分词技术等相关的技术,并分析了各种技术的优缺点,为更好的设计抄袭检测算法做好铺垫。
第五部分通过前面几部分的介绍并根据对抄袭检测系统的需求分析,设计出系统的模块图,并对主要模块介绍其模块活动图和顺序图,便于理解。同时还指出系统对文件结构、格式等的要求。
第六部分是根据系统的设计,完成系统的实现。给出系统界面上的实现及操作流程和输入输出等,同时还给出了模块的重要实现代码。通过实际的动态迁移图直观地说明系统的可行性。
最后对本文的研究工作做出分析总结,并提出了进一步的研究目标。
2 现有抄袭检测方法的概述
互联网信息的高速发展、学术界竞争压力过大等多重压力的原因,导致抄袭剽窃现象日益严重。抄袭行为不仅使个人丢掉了学术原则伤害了他人的利益和感情,更破坏了学术氛围,其严重后果逐渐引起了人们的重视。近年来越来越多的抄袭丑闻被揭露,各国加快了对抄袭技术的研究并取得了很大的进展,对学术氛围的浓稠化发挥着重要作用。
2.1 抄袭与剽窃的定义
抄袭的定义有以下几个方面:一是把别人的作品或语句抄过来当做自己的;二是不顾客观情况,沿用别人的经验和方法等。剽窃是指行为人以隐蔽的手段,将他人作品部分或全部当做自己的作品发表的行为。我国著作权法将剽窃、抄袭等同为同一性质的行为,均属于侵犯他人著作权的违法行为。文献综述
2.2 抄袭手段的遏制方法
目前抄袭现象的恶化已经到了不得不治的地步。对于越来越狡猾的抄袭手段,主要的遏制方法有两种:一种是“阻止法”,另一种是“检测法”。
“阻止法”就是使用加密、水印、特殊载体等方法,使受保护内容难以拷贝。例如,IEEE通过关盘发行文集,中国期刊网上的文章只有通过安装专门的软件才能阅读。
“检测法”是在给定的文档集中查找出与检测文档内容相似的文档集,将检测结果返回给用户,对抄袭者采取相应的惩罚措施以遏制抄袭行为的发生。
单纯使用“阻止法”只是给抄袭增加难度,并不能真正解决抄袭问题。单纯使用“检测法”也只是从心理上让抄袭者畏惧,但还是不能有效抵挡网络资源对抄袭人的诱惑。唯有结合“阻止法”和“检测法”才能更好的预防抄袭行为的发生。
2.3 现有的抄袭技术
自20世纪70年代以来抄袭检测技术有了很大发展。根据检测方法的不同,可以将抄袭检测技术分为两类:一类是词频统计技术的检测方法,另一类是基于数字指纹技术的检测方法。
2.3.1 基于词频统计技术的检测方法
形式上,词是有稳定的字组成的。词频统计的基本原理:在文档上下文中,相邻的字一起出现的次数越多,就越有可能构成一个词,因此字与字相邻同时出现的概率能够较好的反映词的准确度。