其实,在所有的信息理解会议中,真正只有准确率和召回率是两个用来对信息提取系统的所有性能的衡量指标。准确率是系统正确提取出结果后结果所占所整个提取结果的比例,而召回率是指系统正确提取结果后它所占全部的可能的正确结果的比例。论文网
相对于英文信息提取取得的巨大成功,中文信息提取方面就显得很落后。由于其起步较晚,所以在主要的研究工作方面就致力于中文命名实体等中文识别方面,但是设计实现完整的中文信息提取系统方面目前还处在探索阶段。在那几次信息理解会议中,第七次信息理解会议就出现了国立台湾大学和新加坡肯特岗数字实验室两者的身影。他们主要是参加了对中文命名实体的识别任务的测评。而他们的出现,也让所有人看到完整的中文信息提取系统的希望。
信息提取经过了漫长的发展,而对于网页信息来说却是这些年才开始研究的重点项目。现在随着网页信息的急剧增长,给信息的有效使用提出了巨大挑战,如何快速、准确地从网页中获取所需信息己经成为需要我们解决的问题。我们需要一个信息提取系统能够用来准确的提取用户感兴趣的信息用于进一步分析,更加充分有效地利用Web这个巨大的信息源。这种方法可以必须普遍适用于网络页面的信息提取。网络页面信息提取是一个新兴的研究热点,由于WEB 文档的多样性,页面信息提取还面临很多技术难题。所以现在需要对网页信息提取技术做初步研究,现在用的最多的就是基于HTMLParser 技术的方法,比如以提取网站内部信息为例,通过提出页面信息提取系统设计方案,提出者阐述了网页信息提取的工作原理和关键技术,给出了网页信息提取算法,详细介绍了系统的提取URL、页面分析和存储模块,对于网络页面信息的提取具有一定的现实意义。
现在一般在浏览Web上的网页时会发现两部分内容:一部分是网页的主题信息,另一部分则是与主题内容无关的导航条、版权信息、广告信息等内容,这些称之为“噪音”内容。通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性,如何给出准确、有效的获取Web网页的主题信息的解决方案是需要研究的主题。
作为一种描述网页文档的一种标记语言,HTML语言,也就是为超文本标记语言是标准通用标记语言下的一个应用,也是一种规范,一种标准。它通过标记符号来标记要显示的网页中的各个部分。其中元素是HTML语言的基本部分,而元素也总是成对出现,每一对元素一般都有一个开始的标记(如<body>),也有一个结束的标记(如</body>)。元素的标记要用一对尖括号括起来,并且结束的标记总是在开始的标记前加一个斜杠。所以对于网页内容提取来说,简单来说就是从HTM/HTML格式的网页文件中提取内容出来用于研究。
综上所述,基于HTMLParser的网页信息提取与分析是对互联网上需要的信息进行筛选和使用的重要方法。