向量空间模型 (或 词组向量模型) 是一个应用于信息过滤, 信息撷取, 索引 以及评估相关性的代数模型。 SMART是首个使用这个模型的信息检索系统。
文件(语料)被视为索引词(关键词)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。
搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。
实际上,计算夹角向量之间的余弦比直接计算夹角容易:余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。
通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
2.4系统的扩张功能分析
以上为系统自动分类功能的描述,而仅仅只是实现自动分类的功能是不够的,所以系统需要在用户体验方面进行一定的功能扩张。
2.4.1文本批量处理
对于文本自动分类系统而言,批处理是不可缺少的功能。自动分类系统的制作是为了能省下人工分类的事件而如果不能文本批量处理,那系统就无法离开人工,就无法达到提高效率的效果。而整个系统的完成也将会没有意义。
2.4.2样本导入接口
对于自动分类系统来说,样本是很重要的。因为样本直接决定了文本自动分类的性能与领域。你不能把财经的文本用只有计算机样本的分类系统中分类,那样只是徒然,而只有计算机样本的分类系统对于需要分类财经文本的人而言也是毫无价值的东西,所以如果系统有一个对外开放的样本制作的接口,那就能让系统学习新的分类技术,从而能够在新的领域进行分类。这样就算系统之前没有财经的样本,他将来也有可能成为能够分类财经文本的系统。
3文本自动分类功能的实现
文本自动分类系统的分析已经完成,那之后就轮到各个功能的实现了。
3.1分类流程
首先,先要明确分类的流程才能够把分类功能实现。
上一页 [1] [2] [3] [4] [5] [6] [7] [8] 下一页
试题库自动分类系统设计+TFIDF文本自动分类+数据挖掘 第5页下载如图片无法显示或论文不完整,请联系qq752018766