文本分类(Text Classification,TC)也就是将文本按照一定的属性和内容归结为同类别或者多个类别的过程[2]。国外对于文本分类的研究起步较早,大致额可以划分为以下几个阶段。首先,于20世纪50年代末,学者Kuhn在文本分类这一领域开创了新的起点,他将词频统计这一重要思想引进到文本分类中来,开始了全新的文本分类思想[1]。这也是国外第一次开始对文本分类进行相关研究。20世界60年代,学者Kuhn和Maron基于模式识别的思想将概率标引模型引进到信息分类领域[2]。1963年Borko等人提出了利用因子分析法进行文献的自动分类[3]。1975年,Salton在对文本进行描述时提出了一种向量空间模型。30220
其次,于1980年以后,文本分类主要是基于知识工程(Knowledge Engineering, KE)术进行处理。即根据专家通过知识积累人工编写规则,并且通过结合规则形成分类系统。主要以路透社(Reuters)使用的卡内基集团所开发的Construe系统。该系统为路透社每天接收上万篇稿件,实现了系统自动进行分类处理。
这一阶段的发展虽然在成效上有着巨大的改善,但是同样存在着巨大的局限性。一方面:大幅度依赖于专业人员的技术,其系统的优良性以及事物的定义,也会因人而异。另一方面:其领域具有局限性,当新的领域产生,其规则必须重新定义。并且,对于研究领域所描述的信息,也会使得系统无法识别导致放弃归类。论文网
最后,从1990年至今,由于网络的迅速发展,网络文本数据量急剧增多。传统的知识工程分类法已经跟不上现代信息量剧增的步伐,因此机器学习(Machine Learning, ML)[4]成为这个时代的主要分类方法,并逐步取代传统人工智能的知识工程分类法。这个阶段,是信息分类研究高速发展时期[5]。
这一时期,越来越多的学者提出了各种各样的文本分类处理方法。在特征选择方面,Gupta等人提出了粗糙集方法[6]。在文本分类规则方面,Hirsch团队根据遗传算法提出了一种新的文本分类规则[7]。在中英文混合的文本进行分类处理时,基于两个有限状态转换算法和贝叶斯算法,Civera等人提出了一种新的中英文文本分类处理算法[8]。在对专利文本进行分类处理方面,Trappey等人将神经网络分类方法进行改进从而提出了一种新的专利文本分类算法[9]。
在对网页文本进行分类处理方面,Otsubo等人提出了一种新的网页文本分类处理方法,能够对Web网页文本内容进行提取从而进行分类处理[10]。对于使用分类器进行文本分类方面,Bell等人通过组合不同的分类器从而提出了一种复合的分类器对文本进行分类处理[11]。对文本进行分类并且分析方面,Almonayyes等人基于朴素贝叶斯算法,将该算法与实际推理相结合从而提出了一种新的文本分析方法[12];通过改进贝叶斯算法,Uejima等人引入了语义模糊性解析算法[13]。
2006年以来,对于文本分类算法性能的提高成为了这一时期主要的研究方向。在这方面,Choi和Park首先提出了一种新的文本分类方法,这一方法主要体现出在提高文本分类处理算法性能方面的提升[14];同年,基于传统的遗传算法,Yamada等人在经典的KNN文本分类算法基础之上进行了改进[15]。在对Web网页进行文本分类处理方面,为了滤除有害的网页文本内容,Youngsoo等人提出了一种新的文本分类器,同时给出了这种分类器的标准[16]。在对文本分类处理算法效率方面,Kapalavayi团队开辟了一个新的领域,提出了一种全新的基于层次选择的特征选择方法,该方法能够择优选择文本内容,从而提升文本分类的处理效率[17]。对于文本类别不均衡的文本内容,Arunasalam和Chawla等人提出了一种关联分类处理[18]。对于Web网页的评论内容进行分类处理方面,Jung等人展开了一项新的研究方法[19]。对于较自动处理文本分类处理算法方面,Hinton和Salakhutdinov提出了一种全新的处理方法,该方法通过训练中间层的数据集,进而将多文数据进行转换到低文空间,降低了算法处理复杂度,为文本分类处理算法实现全自动化奠定了夯实的基础[20]。 文本分类文献综述和参考文献:http://www.751com.cn/wenxian/lunwen_25834.html