基于HTMLParser的网页信息提取与分析(2)

菜单

4.1.1 页面抓取 20

4.1.2 页面解析 20

4.1.3 显示 22

4.1.4 文件管理 23

4.2 系统运行 25

五存在的问题和下一步的想法 31

结论 32

致谢 33

参考文献 34

一引言

随着时间进入到了2013年，网络的发展特别是互联网的发展真的是越来越快，我们对互联网的依赖也越来越加深。

1.1 研究目的与意义

1.2 论文的研究内容

本论文将要进行的“基于HTMLParser的网页信息提取与分析”是首先从HTML的基本含义出发，分析理解HTML语言的一些概念和书写要求，并对HTML语言中按其格式而形成的多种信息进行重点研究。其次是结合前面对HTMLParser提供的系统功能进行简单的叙述，设计实现基于HTMLParser的网页信息提取与分析，并针对该解析器的工作原理设计一些基础的验证实验对网页提取和分析的正确性进行验证。本论文的研究的内容如下所示：

（1）详细研究HTML语言的特点与其编写环境，以及该语言需要注意的某些要素和其主要结构；

（2）对Parser解析器进行系统地研究，针对该解析器的解析原理进行叙述和分析；

（3）详细研究基于HTMLParser提取页面的方法，着重是设计模块和提取流程,最后则是调试并实现页面提取的工作并完成分析。

1.3 论文的组织结构

本论文的主要目的是在对HTML语言、HTML解析器等进行理解研究与分析的基础上，在HTMLParser的基础上实现对网页信息的提取和分析，并成功运行实现目标。

第一章是引言，简单介绍本文研究目的与意义，论文的研究内容，然后综述本文的组织结构。论文网

第二章是相关原理和技术，是对HTML语言和HTML解析器进行介绍，2.1是从HTML的基本知识出发，介绍了HTML语言的构建和具有的特点。而2.2先介绍HTML解析器的原理和功能，再根据本课题的要求对解析过程作大致介绍。最后是针对本课题中需要的重点，具体对HTML的信息表达作介绍。

第三章是基于HTMLParser的网页信息提取与分析系统设计，主要是对系统体系结构和功能模块结构对系统进行介绍和分析。

第四章是系统实现和系统运行，介绍了程序使用的主要功能模块和大致的算法介绍测试时的一些方法和数据解析，并且运行程序实现系统运行。

第五章是存在的问题和下一步的想法，主要是讲一下存在的问题并对以后的工作方向进行阐述。

二相关原理和技术

2.1 HTML语言

要研究HTMLParser的网页信息提取与分析，首先需要理解HTML语言。

2.1.1 HTML语言的概念

HTML语言，也就是超文本标记语言，是用于描述网页文档的一种标记语言。

它是标准通用标记语言下的一个应用，也是一种规范，一种标准，它通过标记符号来标记要显示的网页中的各个部分。

相对其他文件来说，网页文件本身是一种文本文件，通过在文本文件中添加标记符，可以告诉浏览器如何显示其中的内容（如：文字如何处理，画面如何安排，图片如何显示等）。浏览器按顺序阅读网页文件，然后根据标记符解释和显示其标记的内容，对书写出错的标记将不指出其错误，且不停止其解释执行过程，编制者只能通过显示效果来分析出错原因和出错部位。但需要注意的是，对于不同的浏览器，对同一标记符可能会有不完全相同的解释。由于它的文档制作不是很复杂，但功能强大，并且支持不同数据格式的文件镶入。