菜单
  

    进入大数据时代后,无论是互联网数据还是离线数据都指数级增长,而这些海量数据主要以文本结构化或半结构化文件为主,因此,如何从海量数据中有效快速查找用户需要的的有效数据,提高用户的查找准确率成为一个巨大的挑战。信息检索首先需要对文本数据进行精确有效的分类,所以文本分类成为文本数据处理的主要难点。文本分类是应信息检索(Information Retrieval,IR)的需求而发展起来的。文本分类就是把相似的、相关的文本进行标注和分类,将杂乱的文本进行目录化、组织化,提高信息检索的效率和准确率。63216

    国外是从1950年开始研究文本分类领域的知识。H.P Luhnp[8]创新性地将词频统计的思想应用到了文本分类中,根据词频的不同对文本进行分类,这也是现在文本分类预处理不可缺少的一部分。1960年,Maron又首次将贝叶斯算法应用到文本分类中[9]。这也是首次采用机器学习算法进行文本分类研究。1975年,由Salton[10]提出将向量空间模型应用于文本分类中。这也是首次将统计学方法应用在文本分类中,通过对文本特征进行向量化,对于文本的标记和模型计算都有巨大的推动。以上三个学者对于文本分类的贡献,基本奠定了现代文本分类研究的基础。

    国内文本分类研究开始于上世纪八十年代初期,1981年,南京农业大学的侯汉清教授研究总结了国外的文本分类研究综述,同时也开启了国内对于文本分类的研究。主要研究方向在于中文分词、特征向量化、特征降维算法、智能分类算法方向。比如,清华大学、山西大学、复旦大学、上海交通大学等等都对中文文本分类进行深入研究。文本分类研究热点主要包括以下几个:

    (1)文本预处理算法包括中文词频统计、特征向量化、特征提取和特征向量化,常见的方法有TF、TF-IDF、[12]、潜在语义检索[24]。

    (2)应用于文本分类中的分类算法包括K近邻分类[11.12]、贝叶斯分类[13]、Rocchio分类[14]、决策树分类[15]、支持向量机[16]以及不同算法的组合[17] 。

    近几年,大数据云计算的兴起后,实现了很多以前难以实现的难题,使得大数据集的存储和计算能够完成,而海量文本就是大数据集的典型应用,所以结合Hadoop和文本分类的研究,近几年国内也开始有一些相关的文献。如上海交通大学[29]首先结合了Hadoop和文本分类进行相关的研究,华中师范大学[30]基于Hadoop的MapReduce开发SKNN的文本分类算法。国内的互联网企业也相应的研究基于Hadoop的文本分类算法,并应用与网页分类、邮件识别、用户浏览行为研究等。

  1. 上一篇:大数据国内外研究现状
  2. 下一篇:工业机器人国内外研究现状分析和发展趋势
  1. IIR系统识别国内外研究现状综述

  2. 超大规模集成电路技术国内外研究现状

  3. 自动闭塞分区优化设计国内外研究现状综述

  4. 国内外转载机研究现状及未来趋势

  5. 液压试验台的国内外研究现状和发展趋势

  6. 高速液压冲击加载系统国内外研究现状

  7. 混沌加密通信国内外研究现状综述

  8. 河岸冲刷和泥沙淤积的监测国内外研究现状

  9. 电站锅炉暖风器设计任务书

  10. 大众媒体对公共政策制定的影响

  11. 乳业同业并购式全产业链...

  12. 杂拟谷盗体内共生菌沃尔...

  13. 当代大学生慈善意识研究+文献综述

  14. 酸性水汽提装置总汽提塔设计+CAD图纸

  15. java+mysql车辆管理系统的设计+源代码

  16. 十二层带中心支撑钢结构...

  17. 中考体育项目与体育教学合理结合的研究

  

About

751论文网手机版...

主页:http://www.751com.cn

关闭返回