毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

基于HTMLParser的网页信息提取与分析(3)

时间:2021-04-14 19:50来源:毕业论文
2.1.2 HTML文档的编写方法和网页文件命名 相对于其他用于编程的语言来说,由于HTML语言并不是编程语言而是网页的标记语言的原因,它具有一些和其他语言

2.1.2  HTML文档的编写方法和网页文件命名

相对于其他用于编程的语言来说,由于HTML语言并不是编程语言而是网页的标记语言的原因,它具有一些和其他语言不一样的编写方法,其中包括以下三种:

(1) HTML语言主要是通过手工直接编写记事本方式编写,并且将其以.HTM 或者.HTML的格式进行存储。

(2)在编辑器方面,HTML语言主要是使用可视化HTML编辑器进行编辑,其中如Dreamweaver、Frontpage等是比较热门的选择。

(3)在生成的方式上HTML语言主要由Web服务器或者HTTP服务器一方实时动态地生成。文献综述

然而,对于命名方面,HTML也具有一些特殊的规则,在特殊规则下的HTML才具有其独特的魅力。

(1)文字之间无空格。

(2)文字无特殊符号(例如%符号),可以有下划线,文字只可以为英文

(3)文字区分大小写。

(4)HTML首页文件名默认设置为:index.HTM 或 index.HTML。

2.1.3  HTML语言的基本结构

由于HTML 是用来描述网页的一种语言,所以它作为一种标记语言,它用来描述网页的就用标记标签来表示,而HTML的标记标签通常被称为HTML标签。

HTML标签是由尖括号包围的关键词,比如 <html>作为HTML标签通常是成对出现的,比如 <b> 和 </b> ,其中标签对中的第一个标签是开始标签,第二个标签是结束标签。通常开始和结束标签也被称为开放标签和闭合标签。来.自/751·论|文-网·www.751com.cn/

对于标签来说,其中包含的元素才是HTML语言的基本部分,它指的是从开始标签(start tag)到结束标签(end tag)的所有代码。而对于所有元素来说,它们还具有一些特殊的相关属性。

HTML元素可以有自己的属性,每一个属性还可以由网页作者赋一定的值。其中,元素属性出现在元素的< >内,并且与元素名称之间用一个空格进行分隔,而它的属性值用“”引起来。

HTML语言的标准格式如图2.1所示,其中< >内表达的就是元素的属性

基于HTMLParser的网页信息提取与分析(3):http://www.751com.cn/jisuanji/lunwen_73289.html
------分隔线----------------------------
推荐内容