3.1 系统功能需求概述
本系统是文本相似度检测系统,检测的文档以及作为比较对象的文档各自存在一个文件夹下,主要是针对对本地文档的检测,所以过程中不需要使用到网络功能,对所检测的文档可以进行快速的相似度比较判断。
由于系统无法对图片、表格等无法进行识别和检测,所以需要在检测前对各种高文档进行转换,转成文本形式后再进行相似度的检测。
系统是基于C#语言开发,使用了模块化程序设计以及高级相似度对比算法的系统,可以实现三种模式的文档对比,即两个文档对比,一个文档与其他文档对比以及多个文档与多个文档对比检测。
3.2 系统的三个功能模块系统功能模块图示
(1)1对1 模块:检测两个文本之间的相似度,被检测的文档可以自有的分割文本(50-200),并且可以实现显示各个分割段与比较对象的比较值,以百分比形式显示。
(2)1对N模块,检测一个文本与多个文本存在的相似处,通过对比得出相似度最高的一个文档,显示该文档并显示其相似度的值。
(3)N对N模块,检测N1个与N2个文本之间的相似度,显示N1中各文本与N2中各文本对比后相似度最高的值并显示。
3.3 系统检测思路
本系统最终得出的结果数据包含3个:整个文本与N个文本相比较的相似度,单个文本分割后的每个段落与目标文本整体对比的相似度以及N个文本按需求分割后与N个文本比较的相似度。
三种结果中须有注意一点,切割后的单个文本与单个或多个对比是指把源文本分割后的每一段当作整体与目标文本做比较,得出的结果值是该段文本相似句在被比较的文本中所占比列。而整个文本与一个或多个文本做比较可以把整个文本看作一个段,与之前一样做比较,的出来的结果是两个文本之间的相似度。
需要注意的一点是,在开始进行检测之前,我们需要把非TXT格式的文件通过转换的方法转成TXT格式的,否则无法进行检测,因为该系统无法对图片、表格等形式内容做出对比。
一对一比较相似度时,有两种比较方式,可以整体与整体比较。也可以将源文本分成多段小文本,与目标文本进行比较,所以需要先设定源文本要分割段的字数,如果需要进行整体比较的话设定一个绝对大的数字即必定比源文本大,比如十万,肯定比一篇需要查重的论文长,然后分别选取源文本和目标文本,如果选择的是分段后再比较的话,选择完源文本之后系统会按照需求设置的分割值对源文本进行分割成数个段,点击对比之后,这些段会依次与目标文本进行对比,并分别得出相似比,分别都加以显示,并在这些相似度值中选取最高的一个相似度作为这次比较的最终值。为了更好的分割段落,为系统添加了各个段落的颜色标识,这样看起来会更清晰明了。
文本相似度检测系统设计(7):http://www.751com.cn/jisuanji/lunwen_56288.html