网络舆情分析传统的舆情分析和调查主要采用纯人工的手段来获取数据,如调查问卷和访谈等,然后再分析处理这些数据,得到舆情态势,这样得到的结果在时效性上往往稍微滞后。
网络舆情分析是让计算机去动态的收集数据,对其进行自动分析形成舆情分析结果。其一般由数据收集、数据预处理和数据分析三个模块组成。目前,国内的人民日报社网络中心舆情监测室是国内最早从事互联网舆情监测、研究的专业机构之一,北大方正技术研究院挟多年积累的中文信息处理的技术,研发推出名为“方正智思”的中文智能信息挖掘与知识管理的软件开发包与服务系统。国外网络舆情分析系统所涉及的领域众多,如美国专利局收集的某特定专利提出了通过文本分析来预测舆情的方法;加州大学伯克利分校社会科学计算实验室的SDA项目,其主要针对网页数据进行自动分析[4]。64308
2 文本数据分类研究的发展现状
文本分类方法从解决问题的理论基础来分可以分为两类:一种是基于自然语言的理解,挖掘出相应的文字规则,来对文本数据进行分类。在语言学和计算语言学领域,学者们试图通过各种形式化方法去表述文本的语义,但到目前为止,这些表示方法由于需要比较复杂的语言预处理,在分类时影响了分类器的吞吐速度,在分类效果上还没有明显的优势。在这种情况下,如何利用一些容错能力好并且实现简单的方法,把自然语言处理技术融入到文本表示模型中,实现高鲁棒性的文本表达,则是有待研究的一个课题。另一种则是根据统计学的理论,采用统计的方法根据字词的频度,创建相应的数学模型进行分类。目前应用广泛的贝叶斯、最近邻、SVM分类器都基于统计学的理论。论文网
国外对文本自动分类的研究开展较早。50年代末,H.P.Luhn在这个领域进行了开创性的研究,提出了基于词频统计思想的文本自动分类方法。1960年,Maron发表了关于自动分类算法的第一篇论文《relevance,probabilistic indexing and information retrieval》,随后以K.spark,G.salton以及K.s.Jones等人为代表的众多学者也在这一领域进行了很有成效的研究工作。目前国外的文本分类研究己经从实验性阶段进入到了实用化阶段,并在邮件分类,电子会议等方法取得了广泛的应用。从20世纪60年代直到20世纪80年代末,这期间最有效的文本分类系统一直是由专家人工构建的基于知识工程技术的分类系统。其中较为成功的有麻省理工学院为白宫开发的邮件分类系统和卡内基集团为路透社开发的eonstme系统。
国内对于文本自动分类的研究起步较晚。1981年,侯汉清教授对计算机在文本分类工作中应用作了探讨和阐述。此后,我国陆续研究产生了一些文本分类系统,其中具有代表性的有上海交通大学研制的基于神经网络算法的中文自动分类系统,清华大学的自动分类系统等等。同时在不同的分类算法方面也展开了广泛的研究和实现,中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类,召回率达到94.2%,准确率达到99.4%。中国科技大学的范嵌等人在KNN、贝叶斯和文档相似性研究的基础上提出了一个超文本协调分类器,正确率接近80%,它的特点是适当的考虑了HTML文本中结构化信息。复旦大学和富士通研究中心的黄茸著、吴立德等人研究了独立语种的文本分类,并以词汇和类别的互信息量为评分函数,考虑了单分类和多分类,最好的召回率为88.87%。上海交通大学的刁倩等人结合词权值和分类算法进行分类,基于SVM的封闭式测试实验中分类正确率达到97%[18]。