面向新闻同步的网站内容自动提取与分类研究(2)

菜单

高效率地自动检索、分析这些海量信息的重要性也就凸现出来。目前网络信息的检索服务主要还是由百度和Google等主流搜索引擎提供。搜索引擎抓取分析互联网上的网页是通过爬虫完成的。然而因为语义网的发展状况所限，现有的网页编写法则只是考虑了页面上的HTML元素的样式设计，却没有考虑对机器分析网页提供语义支持，比如计算机程序并不可以直接地理解新闻页面中哪一部分属于新闻标题，哪一部分属于新闻正文。不能解释页面的语义，会难以分别页面中的关键信息和垃圾信息，也就无法对页面中的信息进行有效的检索。因此在网络实际应用背景下的信息检索对内容自动提取技术存有巨大的需求。因为页面数量巨大没有办法通过人来进行一一编写，动态网页制作技术因此诞生并且成为主流的网页制作技术。动态页面技术预先通过模板确定网页结构，而后将查询到的关键信息填充到模版中的对应位置形成需要的页面。因此通过这一方法产生的页面具有相同的结构，但是页面的内容却是相差很大的。的网页内容自动提取技术就是利用了动态页面的这一特点。

当然，除了要对新闻网页内容进行自动提取外，还要对提取的内容进行自动分类，可以说网页内容的自动分类和网页内容的自动提取是密不可分的。网页分类是在文本分类的基础上发展起来的。网页是一种特殊的文本，其中包含了更多的结构信息，包括内容的标题、对外的链接信息、不同内容的字体和颜色、显示位置等，同时也包含有各种广告、版权等信息。文本自动分类的相关研究开始于上世纪50年代末，开创性的研究是H．P．Luhn在这一方面先进行了的。1960年，Maron在JACM上发表了关于自动分类的第1篇题为“On relevanceprobabilistic indexing and information retrieval”的论文，此后很多知名的情报学家，比如如K Sparch'、G Salton以及R．M．Needham等都在这一方面进行了很好的研究。到现在为止，自动分类在国外历经了三个主要的发展阶段：第一个阶段(1958年--1964年)主要是自动分类的可行性研究，第二个阶段(1965年--1974年)主要是自动分类实验研究，第三个阶段(1975年一至今)进入了实用化的阶段。文献综述

1.2研究意义

信息提取在自然语言处理领域中的研究历史悠久，已经出现了较多的成熟技术。而信息提取技术在网页中的应用研究起步不久，而网络的基础设施和网站、网页数量迅速增长，网页信息提取技术面临着持续快速增长的挑战。由于互联网普及大规模化和飞速发展，千千万万的新闻网站建立并且不断的发布新闻网页。但是计算机程序却不可以像人一样直接地区分页面内容是新闻标题还是正文，因此没有办法对网页中的信息进行高效检索。从而在网络实际应用背景下的信息的检索对网页内容自动提取技术存有巨大的需求。

网页分类传统是由人来实现的，即人在对网页的内容进行分析后，赋予它一个相对应的类别。如Yahoo[、AltaVista等搜索引擎为了便于用户对信息的进行查找及提高搜索效率，由专业人员手工对所有网页进行分类。显而易见，这种方法需要大量的人力，随着网页信息的飞速增长，以来人工的方式不再那么的现实。因此，网页自动分类技术也就慢慢成为一个比较好的研究方向，该技术通过用户特定的分类方法或者通过自己学习得到到的分类模型，可以对未知类别的网页进行自行的判断和，从而代替人工方式对海量信息进行分类。网页自动分类又称为在线文档分类，通过分析需要分类的网页的内容信息特点，并将其与已有网页的信息特点进行比较，将需要分类网页划分到特征最接近的一类中。