中文文本分词技术研究文献综述和参考文献
《Web中文文本分词技术研究》——马玉春,宋瀚涛:分词的概念和问题描述,算法设计,
《中科院分词系统》:分词流程,技术细节,具体实例
《传智播客.Net培训.net视频教程》本文来自辣,文'论#文^网,毕业论文 www.751com.cn:C#.net的编程教程
《SQL语句大全》:SQL语句教程
《Deep Web下基于中文分词的聚类算法》——刘荣辉,郑建国:向量加权算法
《TF-IDF百度百科》:权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性。
2.2调研情况
了解分词系统的具体流程:
1:取样
2:样本解析
2.1:样本人工分类
2.2:样本分词
2.3:统计词权
2.4:屏蔽无用词
3:题库分类
3.1:题库分词
3.2:统计词权
3.3:屏蔽无用词
3.4:TF-IDF算法计算相似度
3.5:题库分类
3本课题的基本内容、重点、难点
3.1本课题的基本内容
收集《计算机基础课程》题库,实现练习题文本的统计分析,并根据练习题内容实现自动分类和检索。
通过毕业设计使学生掌握(1)文献资料的获取及使用方法;(2)分析问题解决问题的能力;(2)软件系统的分析、设计和实现方法。
3.2本课题的重点
1:分词
2:题库分析
3:数据库结构
4:相似度算法
3.3本课题的难点
中科院分词系统还是有漏洞,需要研究方法弥补漏洞
TF-IDF算法还是有漏洞,需要研究更加完善的算法2868