2.1.2 HTML文档的编写方法和网页文件命名
相对于其他用于编程的语言来说,由于HTML语言并不是编程语言而是网页的标记语言的原因,它具有一些和其他语言不一样的编写方法,其中包括以下三种:
(1) HTML语言主要是通过手工直接编写记事本方式编写,并且将其以.HTM 或者.HTML的格式进行存储。
(2)在编辑器方面,HTML语言主要是使用可视化HTML编辑器进行编辑,其中如Dreamweaver、Frontpage等是比较热门的选择。
(3)在生成的方式上HTML语言主要由Web服务器或者HTTP服务器一方实时动态地生成。文献综述
然而,对于命名方面,HTML也具有一些特殊的规则,在特殊规则下的HTML才具有其独特的魅力。
(1)文字之间无空格。
(2)文字无特殊符号(例如%符号),可以有下划线,文字只可以为英文。
(3)文字区分大小写。
(4)HTML首页文件名默认设置为:index.HTM 或 index.HTML。
2.1.3 HTML语言的基本结构
由于HTML 是用来描述网页的一种语言,所以它作为一种标记语言,它用来描述网页的就用标记标签来表示,而HTML的标记标签通常被称为HTML标签。
HTML标签是由尖括号包围的关键词,比如 <html>作为HTML标签通常是成对出现的,比如 <b> 和 </b> ,其中标签对中的第一个标签是开始标签,第二个标签是结束标签。通常开始和结束标签也被称为开放标签和闭合标签。来.自/751·论|文-网·www.751com.cn/
对于标签来说,其中包含的元素才是HTML语言的基本部分,它指的是从开始标签(start tag)到结束标签(end tag)的所有代码。而对于所有元素来说,它们还具有一些特殊的相关属性。
HTML元素可以有自己的属性,每一个属性还可以由网页作者赋一定的值。其中,元素属性出现在元素的< >内,并且与元素名称之间用一个空格进行分隔,而它的属性值用“”引起来。
HTML语言的标准格式如图2.1所示,其中< >内表达的就是元素的属性
基于HTMLParser的网页信息提取与分析(3):http://www.751com.cn/jisuanji/lunwen_73289.html