2.1 正则表达式简介 正则表达式[7] 是一种可以用于模式匹配和替换的强有力的工具,一个正则表达式 就是由普通的字符(例如字符 a到z)以及特殊字符(称为元字符)组成的文字模式, 它描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板, 将某个字符模式与所搜索的字符串进行匹配。 正则表达式在字符数据处理中起着非常重要的作用,我们可以用正则表达式完 成大部分的数据分析处理工作,如: 判断一个串是否是数字、是否是有效的 Email 地 址,从海量的文字资料中提取有价值的数据等等,如果不使用正则表达式,那么实 现的程序可能会很长,并且容易出错。对这点本人深有体会,面对大量工具书电子 档资料的整理工作,如果不懂得应用正则表达式来处理,那么将花费很大的时间, 反之则将可以轻松地完成,获得事半功倍的效果。
2.2 HTMLParser 概述 HTMLParser [8] 是一个开源的Java库,它提供接口,支持线性和嵌套的解析HTML 文本,HTMLParser Libraries 提供了一系列访问本地和网络 HTML 资源的 API。 Htmlparser.jar 提供底层的接口,它负责访问 HTML 中的文本、注释、标签等节点, 并把它们转换成线性的节点。HTMLParser 提供了两种访问节点的方法:Filter 模式 和Visitor 模式。 社会舆情信息采集研究(3):http://www.751com.cn/jisuanji/lunwen_65886.html