进入大数据时代后,无论是互联网数据还是离线数据都指数级增长,而这些海量数据主要以文本结构化或半结构化文件为主,因此,如何从海量数据中有效快速查找用户需要的的有效数据,提高用户的查找准确率成为一个巨大的挑战。信息检索首先需要对文本数据进行精确有效的分类,所以文本分类成为文本数据处理的主要难点。文本分类是应信息检索(Information Retrieval,IR)的需求而发展起来的。文本分类就是把相似的、相关的文本进行标注和分类,将杂乱的文本进行目录化、组织化,提高信息检索的效率和准确率。63216
国外是从1950年开始研究文本分类领域的知识。H.P Luhnp[8]创新性地将词频统计的思想应用到了文本分类中,根据词频的不同对文本进行分类,这也是现在文本分类预处理不可缺少的一部分。1960年,Maron又首次将贝叶斯算法应用到文本分类中[9]。这也是首次采用机器学习算法进行文本分类研究。1975年,由Salton[10]提出将向量空间模型应用于文本分类中。这也是首次将统计学方法应用在文本分类中,通过对文本特征进行向量化,对于文本的标记和模型计算都有巨大的推动。以上三个学者对于文本分类的贡献,基本奠定了现代文本分类研究的基础。
国内文本分类研究开始于上世纪八十年代初期,1981年,南京农业大学的侯汉清教授研究总结了国外的文本分类研究综述,同时也开启了国内对于文本分类的研究。主要研究方向在于中文分词、特征向量化、特征降维算法、智能分类算法方向。比如,清华大学、山西大学、复旦大学、上海交通大学等等都对中文文本分类进行深入研究。文本分类研究热点主要包括以下几个:
(1)文本预处理算法包括中文词频统计、特征向量化、特征提取和特征向量化,常见的方法有TF、TF-IDF、[12]、潜在语义检索[24]。
(2)应用于文本分类中的分类算法包括K近邻分类[11.12]、贝叶斯分类[13]、Rocchio分类[14]、决策树分类[15]、支持向量机[16]以及不同算法的组合[17] 。
近几年,大数据云计算的兴起后,实现了很多以前难以实现的难题,使得大数据集的存储和计算能够完成,而海量文本就是大数据集的典型应用,所以结合Hadoop和文本分类的研究,近几年国内也开始有一些相关的文献。如上海交通大学[29]首先结合了Hadoop和文本分类进行相关的研究,华中师范大学[30]基于Hadoop的MapReduce开发SKNN的文本分类算法。国内的互联网企业也相应的研究基于Hadoop的文本分类算法,并应用与网页分类、邮件识别、用户浏览行为研究等。