2.2 网页文本处理
网页爬取实现了对信息的初步获取,然而这些信息是冗杂无序、难以理解的,需要通过文本处理技术对其进行预处理来提取有用的信息。网页的原始信息中有大量的无关文本,包括有HTML、JavaScript、CSS、程序注释等等,如果没有适当的过滤提取技术,有效信息的获取可以说是不可能的。只有对页面进行恰当的预处理,将有效信息提取并格式化,才能对信息做更进一步的处理与分析。
网页文本预处理是与项目的需求密切相关的,一般来说预处理程序需要因项目的目的进行定制,而预处理的主要内容涉及到网页HTML解析和文本信息提取。HTML解析主要依靠正则表达式和结构化HTML来实现:前者灵活方便,只要能写出正则表达式就能匹配到任意符合要求的信息,但难以理解,可移植性差;后者主要有基于数或对象的Dom(Document Object Model)和基于事件的Sax(Simple APIs for XML),两者在内存和编码上各有取舍,面对复杂数据的可扩展性相比正则式更强。HTML解析完成了我们对网页的理解和梳理过程,之后我们就能尝试提取网页的正文了。在目标网页的异构性较强的情况下,网页正文提取是一件较为痛苦的事情,大规模的该项工作一般由机器学习完成。一般来说,在目标网页结构数量不大的情况下,相关工作通常使用的方法是通过人眼观察提取具有共性的网页模板再由模板自动提取正文的半自动方法来进行的。其优点是,对已归类的网页提取精准度高并易于实现;缺点则是,扩展性差,需要对不同模板的网页单独进行编码。在本课题中,我们尝试了基于模板的半自动方式,并在将在后文中对该过程在新浪新闻的应用进行详细讨论。
2.3 分词与关键字提取
在完成网页的正文提取之后,我们的系统获得了网页的正文文本信息。然而这些文本大多是自然语言信息,在目前的民用技术条件下,计算机是难以对这些文本进行进一步分析的,需要将自然语言转化为机器能够理解的结构。由于中文语言的天生劣势,对于中文网页的结构化分词技术是尤为重要的。中文分词在当代已经发展得较为全面,根据分词方法大致可以分为以下几类:一是基于字符串匹配的分词技术,其原理即对足够大的词汇库进行匹配;二是基于字词频的统计学分词方法,该方法统计上下文中字与字相邻或协同出现的概率来评估其组成词的可能性;三是基于机器学习的理解分词方法,利用语法、语义分析,使计算机模拟人对文本信息的理解过程。
有了已分词的文本,我们就能较为容易地提取出文本信息的关键词。一定数量的关键词能够概括性的描述一个文本的信息要素,这对有社会科学意义的文本信息的处理是极为重要的。关键词的提取也有诸多方法,包括基于词频的、语义的、混合的等等。由于课题的目的不同,对文本信息的分析重点各有侧重,关键词提取算法也应该根据项目需求进行选择和调整,不可一概而论。 基于门户网站的新闻热点发现与舆情分析技术(4):http://www.751com.cn/yanjiu/lunwen_21067.html