由IDF的公式可知,IDF是由样本集中样本文本总数和样本文本中含有该词的文本数量所决定。所以IDF需要从样本中获取。
图3.7 IDF实现流程
图3.7所示,我们通过样本记录的样本文本总数与每个词在样本中出现的文本数,之后循环数组,以LOG(文本总数/每个词在样本中出现的文本数)的公式进行计算,得出IDF值。而样本中的数据如何存在的,在这里先不介绍,在之后会介绍样本的制作,那里会说明样本数据的制作方法也会指明这些数据的获得方法。
我们得到了TF和IDF之后通过TF*IDF就能得到每个词的TFIDF值。也就是每个词的词权权重。获得了权重之后就要进行下一个重头戏:分类器的实现。
3.5分类器的实现
分类器的制作是整个分类过程的最后一步,在方案中我们已经决定分类器采用向量空间模型VSM,而该如何实现呢,那我们就需要了解一下这个方法:基于向量空间的余弦公式:
这个公式是计算在向量空间模型中两个向量的夹角余弦值,这个夹角就是两个向量的相似度,也可以用作文本相似度的比较。本文来自辣~文^论#文,网,毕业论文 www.751com.cn 加7位QQ324.9114找源文
文本被分为关键词形成的多次元向量空间, 关键词的集合通常为文本中至少出现过一次的词组。搜寻时,输入的关键词也被转换成类似于文件的向量,这个模型假设,文本和分类样本的相关程度,可以经由比较每个文本向量和分类样本向量的夹角偏差程度而得知。
文本怎么会变成向量呢?我们知道多文向量,他是由索引和值所形成。而文本通过分词-统计-计算词权权值之后,也可以形成一个二文数组:{(词,TFIDF值)}。词在统计的过程中已经把重复的词统计掉了,所以这里的每个词都是唯一的,这也恰恰符合了向量索引的要求,而TFIDF值是词的权重,是需要比较相似度的值,也就是向量中的值。这样,文本就被形成向量了。
上一页 [1] [2] [3] [4] [5] [6] [7] [8]