文章教程

17.3深入认识XML文档

9/17/2020 9:26:54 PM 人评论 次浏览

17.3 深入认识XML文档

和所有标记语言一样,XML也有其特定的语法格式。本节将深入XML文档内部,向读者介绍XML文档的细节部分。这些内容包括,XML的声明、XML元素、XML标签及其属性、XML处理指令、XML文档中的注释以及文档定义类型等基本概念和用法。XML是一个比较简单的描述数据的方法,但这并不意味XML很简单,实际上,关于XML的内容是非常丰富的,本节将从基本和实用两个方面出发,为读者尽可能多地介绍XML文档的各个方面。

17.3.1 XML声明

XML的作用就是告诉XML处理程序:这个文件是按照XML文件的标准对数据进行描述的。当创建一个XML文件时,通常要以一个XML声明作为开始。是因为XML声明在文件中是可选内容,可加可不加,但W3C推荐加入这个声明。所以,通常把XML声明作为XML文件的第一行。一个最简单的XML声明如下所示。


<?xml version="1.0"?>


XML的声明由“<?”开始,以“?>”结束。在“<?”后面紧跟着处理指示的名称,在这里是“xml”。XML声明中要求必须指定“version”的属性值,这个值定义了XML的版本。另外,声明中还有两个可选属性,分别是“standalone”和“encoding”。因此,一个完整的XML声明如下所示。


<?xml version="1.0"standalone="no"encoding="UTF-8"?>


下面详细介绍这几个属性的具体含义。

❑version属性,上面已经提到,在一个XML的声明中必须包括version属性指明所采用的XML的版本号,而且,它必须在属性列表中排在第一位。由于当前的XML最新版本是1.0,所以目前看到XML声明无一例外都是version="1.0"。

❑standalone属性,这个属性表明该XML文件是否和一个独立的声明文件配套使用。如果该属性值为“yes”,说明没有另外一个配套的DTD文件(这个文件将在后续有所介绍)来配套使用。相反,如果这个属性设置为“no”,则有可能有这样一个文件。

❑encoding属性,所有的XML语法分析器都要支持8位和16位的编码标准。而且,XML支持一个更庞大的编码集合。实际应用中常见的编码是GB2312(简体中文码)和UTF-8(Unicode Translation Format),采用哪种编码取决于XML文件中用到的字符集。在前面的例子中,使用了UTF-8编码来声明XML文档的字符集。

教程类别