文本分类研究现状

菜单

进入大数据时代后，无论是互联网数据还是离线数据都指数级增长，而这些海量数据主要以文本结构化或半结构化文件为主，因此，如何从海量数据中有效快速查找用户需要的的有效数据，提高用户的查找准确率成为一个巨大的挑战。信息检索首先需要对文本数据进行精确有效的分类，所以文本分类成为文本数据处理的主要难点。文本分类是应信息检索（Information Retrieval，IR）的需求而发展起来的。文本分类就是把相似的、相关的文本进行标注和分类，将杂乱的文本进行目录化、组织化，提高信息检索的效率和准确率。63216

国外是从1950年开始研究文本分类领域的知识。H.P Luhnp[8]创新性地将词频统计的思想应用到了文本分类中，根据词频的不同对文本进行分类，这也是现在文本分类预处理不可缺少的一部分。1960年，Maron又首次将贝叶斯算法应用到文本分类中[9]。这也是首次采用机器学习算法进行文本分类研究。1975年，由Salton[10]提出将向量空间模型应用于文本分类中。这也是首次将统计学方法应用在文本分类中，通过对文本特征进行向量化，对于文本的标记和模型计算都有巨大的推动。以上三个学者对于文本分类的贡献，基本奠定了现代文本分类研究的基础。

国内文本分类研究开始于上世纪八十年代初期，1981年，南京农业大学的侯汉清教授研究总结了国外的文本分类研究综述，同时也开启了国内对于文本分类的研究。主要研究方向在于中文分词、特征向量化、特征降维算法、智能分类算法方向。比如，清华大学、山西大学、复旦大学、上海交通大学等等都对中文文本分类进行深入研究。文本分类研究热点主要包括以下几个：

（1）文本预处理算法包括中文词频统计、特征向量化、特征提取和特征向量化，常见的方法有TF、TF-IDF、[12]、潜在语义检索[24]。

（2）应用于文本分类中的分类算法包括K近邻分类[11．12]、贝叶斯分类[13]、Rocchio分类[14]、决策树分类[15]、支持向量机[16]以及不同算法的组合[17] 。

近几年，大数据云计算的兴起后，实现了很多以前难以实现的难题，使得大数据集的存储和计算能够完成，而海量文本就是大数据集的典型应用，所以结合Hadoop和文本分类的研究，近几年国内也开始有一些相关的文献。如上海交通大学[29]首先结合了Hadoop和文本分类进行相关的研究，华中师范大学[30]基于Hadoop的MapReduce开发SKNN的文本分类算法。国内的互联网企业也相应的研究基于Hadoop的文本分类算法，并应用与网页分类、邮件识别、用户浏览行为研究等。