您现在的位置：毕业论文 >> 论文 >> 正文

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘第7页

更新时间：2016-8-25: 来源：毕业论文

如图3.4，分词统计通过循环两个数组的内容来判断是否该次出现的次数并加以统计词种数与总词数。
我们使用之间测试分词的题目再一次测试分词统计，来看下统计后的结果。

图3.5 分词统计结果本文来自辣~文^论#文,网，毕业论文 www.751com.cn 加7位QQ324.9114找源文
如图3.5可见统计后的数组中没有了重复的词并且重复次数都被记录下来，文本总词数和文本内不重复的词的种数也记录了下来。
分词统计完成后，接下来就是整个分类系统的重头戏之一：数据挖掘。
3.4数据挖掘的实现
数据挖掘，在分类系统中其实就是文本关键词的挖掘，而文本关键词是根据文本内词的词权所决定的，而词权的计算方法在之前方案中已经决定：TFIDF算法。
3.4.1TFIDF算法描述
词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）对于在某一特定文件里的词语 ti 来说，它的重要性可表示为：

以上式子中 ni,j 是该词在文件dj中的出现次数，而分母则是在文件dj中所有字词的出现次数之和。
逆向文件频率（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

其中
|D|：语料库中的文件总数
：包含词语ti的文件数目（即的文件数目）如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用
然后

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TFIDF。因此，TFIDF倾向于过滤掉常见的词语，保留重要的词语。
3.4.2TFIDF算法的实现
由TFIDF算法描述可知，TFIDF可分为TF和IDF两部分，所以在算法实现的过程中我们也把他分为两部分：TF的获取与IDF的获取
（1）TF的获取

由TF的公式可知TF是由词在文本中出现的次数与文本中所有的词数所决定的。而这两个数值正好由之前的分词统计中获得，所以TF可以直接从分词统计的结果中获取。实现流程图如下：

上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页