百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

一篇文章让你弄清楚XML文件的规范与使用

zhezhongyun 2024-12-11 18:19 59 浏览

可扩展标记语言(Extensible Markup Language,简称XML)是一种标记语言。所谓的标记是指计算机所能理解的信息符号,通过标记可以实现软件开发者与计算机之间的信息沟通。我们常见的HTML便是一种标记语言,不过HTML语言中的标签(例如“<h1> </h1>”、“<img \>”等)都是固定的,是不可以扩展的。XML则可以由开发人员自由扩展定义。

XML可扩展的一个重要表现就是XML文档的结构是可以自由定义的。定义XML文档可以使用DTD(Document Type Definition,即:文档类型定义),也可以使用XML Schema。不过在介绍DTD和XML Schema之前,我们先了解下XML文档的结构。

XML文档中包含众多的节点。节点分为以下几类:元素节点、属性节点、文本节点、文档节点等,在实际指代中,我们可以省略“节点”二字,也可以将以上各类统称“节点”。

下面代码给出了一个XML文档。

<?xml version="1.0" encoding="UTF-8"?>
<members>
  <user type="student">
    <id>1</id>
    <name>易哥</name>
    <shcool>Sunny School</shcool>
  </user>
  <user type="student">
    <id>2</id>
    <name>莉莉</name>
    <shcool>Garden School</shcool>
    </user>
</members>

文档第一行为XML声明,它声明了XML的版本是1.0,使用的编码是UTF-8。XML中从一个标签开始(含)到一个标签结束(含)的部分叫作元素节点,例如从第一个“<user>”到第一个“</user>”之间的部分就是一个user元素节点。元素节点可以有属性节点,例如“type="student"”。元素节点可以包含其他元素节点,例如user元素包含了id、name、school这三个元素节点。元素节点中也可以有文本节点,例如第一个name元素节点中就包含了文本节点,值为“易哥”。

上述XML中,members元素位于最顶层,因此是根元素。每一个XML文档都必须要有一个根元素。

XML文档实际上表述了一棵树。下图展示了上述XML对应的结构树。

在一个XML文档中,可以存在什么元素以及每个元素是怎样的,这些是由XML文档的定义文件来进行描述的,例如DTD(此类文件的后缀名为dtd)或者XML Schema(此类文件的后缀名为xsd)。

以XML Schema文档为例,我们可以使用下面的代码来定义上述XML片段。

<xs:schema attributeFormDefault="unqualified" elementFormDefault="qualified" xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="members">
    <xs:complexType>
      <xs:sequence>
        <xs:element maxOccurs="unbounded" name="user">
          <xs:complexType>
            <xs:sequence>
              <xs:element name="id" type="xs:unsignedByte" />
              <xs:element name="name" type="xs:string" />
              <xs:element name="school" type="xs:string" />
            </xs:sequence>
            <xs:attribute name="type" type="xs:string" />
          </xs:complexType>
        </xs:element>
      </xs:sequence>
    </xs:complexType>
  </xs:element>
</xs:schema>

而使用DTD,则可以用下面的代码来定义。

<!DOCTYPE members [
        <!ELEMENT members (user*)>
        <!ELEMENT user (id,name,school)>
        <!ATTLIST user type CDATA #IMPLIED>
        <!ELEMENT id (#PCDATA)>
        <!ELEMENT name (#PCDATA)>
        <!ELEMENT school (#PCDATA)>
        ]>

上面的DOCTYPE声明中,members是根节点名称,“[ ]”中为节点的限制条件。而且,DTD也支持使用外部DTD文档来定义XML文档。

以上均参考自《通用源码阅读指导书——MyBatis源码详解》一书。接下来我们继续跟随这本书分析MyBatis的配置文档。

MyBatis的配置文档开头我们就可以看到下面所示的片段就引用了外部的DTD文档。

<!DOCTYPE configuration
        PUBLIC "-//mybatis.org//DTD Config 3.0//EN"
        "http://mybatis.org/dtd/mybatis-3-config.dtd">

在上述DOCTYPE声明中,各个项目的含义如下:

  • configuration :表示当前XML文档的根节点为configuration
  • PUBLIC :表示当前XML文档的采用的是公共的DTD
  • -//mybatis.org//DTD Config 3.0//EN :表示DTD文档的信息: - :表示是非ISO组织mybatis.org :表示组织名称mybatis.orgDTD Config 3.0 :表示文本描述,包括版本号EN :表示DTD文档是英文
  • http://www.w3.org/TR/xhtml/DTD/xhtml1-transitional.dtd :表示文档的下载地址。

本文,我们详细介绍了XML文档中节点的含义,以及如何定义一个XML文档。接下来的文章中我们会参照《通用源码阅读指导书——MyBatis源码详解》一书,以MyBatis中的配置文件解析为例,介绍如何使用Java解析XML文档。


这是一本以MyBatis的源码为实例讲述源码阅读方法的书籍,并且附带有示例项目源码,MyBatis的全中文注解。书籍还总结了大量的编程知识和架构经验,对提升编程和架构能力十分有用,非常推荐。

最后,我是高级架构师易哥,这里是架构研究所。真心希望本文能让大家有所收获。

欢迎关注我们,我会偶尔出没分享软件架构编程相关的干货知识。

相关推荐

Python入门学习记录之一:变量_python怎么用变量

写这个,主要是对自己学习python知识的一个总结,也是加深自己的印象。变量(英文:variable),也叫标识符。在python中,变量的命名规则有以下三点:>变量名只能包含字母、数字和下划线...

python变量命名规则——来自小白的总结

python是一个动态编译类编程语言,所以程序在运行前不需要如C语言的先行编译动作,因此也只有在程序运行过程中才能发现程序的问题。基于此,python的变量就有一定的命名规范。python作为当前热门...

Python入门学习教程:第 2 章 变量与数据类型

2.1什么是变量?在编程中,变量就像一个存放数据的容器,它可以存储各种信息,并且这些信息可以被读取和修改。想象一下,变量就如同我们生活中的盒子,你可以把东西放进去,也可以随时拿出来看看,甚至可以换成...

绘制学术论文中的“三线表”具体指导

在科研过程中,大家用到最多的可能就是“三线表”。“三线表”,一般主要由三条横线构成,当然在变量名栏里也可以拆分单元格,出现更多的线。更重要的是,“三线表”也是一种数据记录规范,以“三线表”形式记录的数...

Python基础语法知识--变量和数据类型

学习Python中的变量和数据类型至关重要,因为它们构成了Python编程的基石。以下是帮助您了解Python中的变量和数据类型的分步指南:1.变量:变量在Python中用于存储数据值。它们充...

一文搞懂 Python 中的所有标点符号

反引号`无任何作用。传说Python3中它被移除是因为和单引号字符'太相似。波浪号~(按位取反符号)~被称为取反或补码运算符。它放在我们想要取反的对象前面。如果放在一个整数n...

Python变量类型和运算符_python中变量的含义

别再被小名词坑哭了:Python新手常犯的那些隐蔽错误,我用同事的真实bug拆给你看我记得有一次和同事张姐一起追查一个看似随机崩溃的脚本,最后发现罪魁祸首竟然是她把变量命名成了list。说实话...

从零开始:深入剖析 Spring Boot3 中配置文件的加载顺序

在当今的互联网软件开发领域,SpringBoot无疑是最为热门和广泛应用的框架之一。它以其强大的功能、便捷的开发体验,极大地提升了开发效率,成为众多开发者构建Web应用程序的首选。而在Spr...

Python中下划线 ‘_’ 的用法,你知道几种

Python中下划线()是一个有特殊含义和用途的符号,它可以用来表示以下几种情况:1在解释器中,下划线(_)表示上一个表达式的值,可以用来进行快速计算或测试。例如:>>>2+...

解锁Shell编程:变量_shell $变量

引言:开启Shell编程大门Shell作为用户与Linux内核之间的桥梁,为我们提供了强大的命令行交互方式。它不仅能执行简单的文件操作、进程管理,还能通过编写脚本实现复杂的自动化任务。无论是...

一文学会Python的变量命名规则!_python的变量命名有哪些要求

目录1.变量的命名原则3.内置函数尽量不要做变量4.删除变量和垃圾回收机制5.结语1.变量的命名原则①由英文字母、_(下划线)、或中文开头②变量名称只能由英文字母、数字、下画线或中文字所组成。③英文字...

更可靠的Rust-语法篇-区分语句/表达式,略览if/loop/while/for

src/main.rs://函数定义fnadd(a:i32,b:i32)->i32{a+b//末尾表达式}fnmain(){leta:i3...

C++第五课:变量的命名规则_c++中变量的命名规则

变量的命名不是想怎么起就怎么起的,而是有一套固定的规则的。具体规则:1.名字要合法:变量名必须是由字母、数字或下划线组成。例如:a,a1,a_1。2.开头不能是数字。例如:可以a1,但不能起1a。3....

Rust编程-核心篇-不安全编程_rust安全性

Unsafe的必要性Rust的所有权系统和类型系统为我们提供了强大的安全保障,但在某些情况下,我们需要突破这些限制来:与C代码交互实现底层系统编程优化性能关键代码实现某些编译器无法验证的安全操作Rus...

探秘 Python 内存管理:背后的神奇机制

在编程的世界里,内存管理就如同幕后的精密操控者,确保程序的高效运行。Python作为一种广泛使用的编程语言,其内存管理机制既巧妙又复杂,为开发者们提供了便利的同时,也展现了强大的底层控制能力。一、P...