您现在的位置：毕业论文 >> 论文 >> 正文

试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘第4页

更新时间：2016-8-25: 来源：毕业论文

（5）应需而变，量身定做
所有功能模块均可拆卸组装,ICTCLAS有GB2312和BIG5版本，可分别处理目简繁体中文；支持当前广泛承认的分词和词类标准，包括计算所词类标注集ICTPOS，北大标准、滨州大学标准、国家语委标准、台湾“中研院”、香港“城市大学”；用户可以直接自定义输出的词类标准，定义输出格式；用户可以根据自己的需求，进行量身自助式定做适合自己的分词系统。
2.3.2数据挖掘系统方案的选定—TFIDF算法
数据挖掘对于自动分类系统而言就是关键词的挖掘，而关键词的定义就必须通过文本中词的词权权重所决定。
词权权重的计算则有多种不同的方法，主要布尔函数，频度函数，开根号函数，对数函数，熵函数及TFIDF函数等，特征项的权重取值，在较大程度上会影响文本分类算法的整体性能。其中TFIDF因其算法相对简单、并有较高的准确率和召回率，一直受到相关研究人员和众多应用领域的青睐。
TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于本文来自辣~文^论#文,网，毕业论文 www.751com.cn 加7位QQ324.9114找源文一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。
TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。
2.3.3分类器方案的选定—空间向量模型VSM
在文本分类领域中，占统治地位的文本分类器当然是空间向量模型
向量空间模型(VSM：Vector Space Model)由Salton等人于20世纪70年代提出，并成功地应用于著名的SMART文本检索系统。
VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。
M个无序特征项ti ,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算，N个训练文档AM*N= (aij) 文档相似度比较1)Cosine计算,余弦计算的好处是,正好是一个介于0到1的数,如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的计算方法为,向量内积/各个向量的模的乘积.2)内积计算,直接计算内积,计算强度低,但是误差大.

上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页