HTMLParser的网页信息提取分析国内外研究现状

从网络的出现到进入到21世纪的第二个十年的现在，互联网对于我们来说是越来越重要。我们发现，随着互联网的不停地持续发展，它的信息量呈爆炸型的增长态势，信息质量也变得尤为重要。

对于使用互联网的用户来说，在没有任何辅助工具的帮助下他们在面对从如海一样的网络知识和信息中发现自己想要的信息的时候会感到束手无策。所以，能够快速从网页中分析出如文字、图、邮件的网络信息并及时提供给用户的工具是非常必要的。但对于机器来说，每个网页页面里用于表述的HTML语言根本不能与它进行数据交换，只能让用户直接浏览。所以信息提取研究具有一段很长的发展历史。

从相对自然的语言文本当中来获取结构化的信息的研究其实最早是在20世纪60年代开始的，我们一直将这看作是信息提取技术的初始研究。

美国的纽约大学从上世纪60年代中期一直到80年代开展了一个叫做Linguistic String的项目。其中，通过建立一个超大规模的计算语法，并将与之相关的应用从医疗领域的X光报告和医院出院记录中提取信息格式的项目成为其主要的研究内容。

然而，除此之外，在美国另一个地方：耶鲁大学，Roger Schank和他同事们在20世纪70年代开展了与之相关的长期项目。他的得意门生Gerald De Jong根据静态脚本理论建立了一个名叫FRUMP系统的信息提取系统。这个系统是从新闻报道中将信息提取出来，其中灾害、时事等新闻信息点都能通过这个系统提取出来。这个系统采用的是期望脚本与数据的输入文本相结合的方法来处理信息，直到现在许多信息提取系统采用的都是这种方法。

时间到了20世纪80年代末期，信息提取研究技术已经开始蓬勃发展，其中召开信息理解系列会议是里程碑式的壮举。正是这次系列会议的召开使得信息提取技术成为自然语言处理领域一个重要分支，其后也一直推动这些研究领域向前快速发展。

从1987年到1998年，这个由美国国防高级研究计划委员会资助的会议一共举行了七届。信息理解会议的最明显的特点是在于对信息提取系统的评测，而不是会议本身。并且能够有资格参加信息理解会议的单位必须是参加过信息提取系统测评的。另外，在每次的信息理解会议之前，会议的组织者都会首先向所有参加的单位提供一份有关提取任务的说明和样例信息文本，然后所有参加的单位就利用自己的资源自主开发这种信息提取系统。每次在正式会议开始之前，每个参加的单位需要将给定的测试信息文本的集合进行运行并进行系统处理。在所有的由每个系统各自的输出结果与原本具有的标准结果进行对照最终得到所有系统的测评结果。在所有的测评结束之后，会议才正式开始。会议的主要流程就是让参与者相互交流各自思想和不同感受。后来，这种通过测评各自系统进行交流的会议模式得到了推广和运用，其他很多类似的会议也应运而生。

通过资料了解到的历次信息理解会议也可以清楚明白地了解到信息提取技术发展的历程。

在1987年的5月举行的首届信息理解会议由于其是首次召开的特殊原因，这次会议基本上是一种探索性的会议，几乎没有明确的任务和目标，当然也没有制定任何的测评标准。在这次会议中一共有六个系统的参与，用来处理的事例文本是一则简单的海军军事情报，结果最后每个信息提取系统的输出格式全都不太一样，这也成为了第一次会议难得的记忆。

在1989年的5月召开的第二次信息理解会议共有八个系统参加，参与处理的文本类型与第一次会议处理的类型一模一样。然后与第一次不同的是，这次信息理解会议开始有了相当明确的任务目标，规定了信息模板以及信息槽的处理规则，其中提取信息的方法被明确定义为一个模板填充的方法。 HTMLParser的网页信息提取分析国内外研究现状:http://www.751com.cn/yanjiu/lunwen_73290.html