XML
XML的全称是EXtensible Markup Language,可扩展标记语言编写,XML就是编写标签,与HTML非常类似,扩展名.xml。拥有良好的人机可读性。
用途:
- Java程序的配置描述文件
- 用于保存程序产生的数据
- 网络间的数据传输
XML和HTML的区别
- XML与HTML非常相似,都是编写标签,XML的语法严格,HTML语法松散
- XML没有预定义标签,HTML存在大量预定义标签
- XML重在保存与传输数据,HTML用于显示信息
XML文档结构
- 第一行必须是XML声明
- 有且只有一个根节点
- XML标签的书写规则与HTML相同
XML声明
XML声明说明XML文档的基本信息,包括版本号与字符集,写在XML第一行。
xml
<?xml version="1.0" encoding="UTF-8"?>
version
:代表版本号1.0/1.1encoding
:UTF-8设置字符集,用于支持中文standalone
:是否独立- yes:不依赖其他文件
- no:依赖其他文件
XML标签书写规则
合法的标签名
- 标签名要有意义
- 建议使用英文小写字母,单词之间使用
-
分割 - 建议多级标签之间不要存在重名的情况
适当的注释与缩进
- 适当的注释与缩进可以让XML文档更容易阅读
合理使用属性
- 标签属性用于描述标签不可或缺的信息
- 对标签分组或为标签设置ID时常用属性表示
有序的子元素
- 在XML多层嵌套的子元素中,标签前后顺序应保持一致
特殊字符与CDATA标签
- 标签体中,出现
<
、>
特殊字符,会破坏文档结构 - 使用实体引用或者CDATA标签
实体引用 | 对应符号 | 说明 |
---|---|---|
< |
< |
小于 |
> |
> |
大于 |
& |
& |
和号 |
' |
' |
单引号 |
" |
" |
双引号 |
CDATA 指的是不应由 XML 解析器进行解析的文本数据,从 <![CDATA[
开始,到]]>
结束
xml
<?xml version="1.0" encoding="UTF-8" ?>
<!--人力资源管理系统-->
<hr>
<employee no="3301">
<name>张三</name>
<age>30</age>
<salary>4000</salary>
<department>
<dname>市场部</dname>
<address>xx大厦-B1003</address>
</department>
</employee>
<employee no="3303">
<name>李四</name>
<age>28</age>
<salary>5000</salary>
<department>
<dname>财务部</dname>
<address>xx大厦-B1004</address>
</department>
</employee>
</hr>
XML语义约束
XML文档结构正确,但可能不是有效的。XML语义约束有两种定义方式:DTD与XML Schema。
DTD约束
DTD(Document Type Definition,文档类型定义)是一种简单易用的语义约束方式,DTD文件的扩展名为.dtd
。
DTD定义节点
利用DTD中的<!ELEMENT>
标签,可以定义XML文档中允许出现的节点及数量:
<!ELEMENT hr (employee)> employee>
:定义hr节点下只允许出现1个employee子节点<!ELEMENT employee (name,age,salary,department)>
:节点下必须包含以下四个节点,且按顺序出现<!ELEMENT name (#PCDATA)>
:定义name标签体只能是文本,#PCDATA
代表文本元素
如某个子节点需要多次重复出现,则需要在子节点后增加相应的描述符:
<!ELEMENT hr (employee+)>
:hr节点下最少出现1个employee子节点<!ELEMENT hr (employee*)>
:hr节点下可出现0...n个employee子节点<!ELEMENT hr (employee?)>
:hr节点下最多出现1个employee子节点
xml
<?xml version="1.0" encoding="UTF-8" ?>
<!ELEMENT hr (employee+)>
<!ELEMENT employee (name,age,salary,department)>
<!ATTLIST employee no CDATA "">
<!ELEMENT name (#PCDATA)>
<!ELEMENT age (#PCDATA)>
<!ELEMENT salary (#PCDATA)>
<!ELEMENT department (dname,address)>
<!ELEMENT dname (#PCDATA)>
<!ELEMENT address (#PCDATA)>
XML引用DTD
在XML中使用<!DOCTYPE>标签来引用DTD文件:
<!DOCTYPE 根节点 SYSTEM "dtd文件路径">
:本地引用<!DOCTYPE 根节点 PUBLIC "dtd文件名字" "dtd文件的位置URL">
:网络引用
xml
<!DOCTYPE hr SYSTEM "hr.dtd">
Schema约束
XML Schema比DTD更为复杂,提供了数据类型、格式限定、数据范围等特性,是 W3C 标准。
<根节点 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="XML地址" xsi:schemaLocation="XSD地址">
:引入
xml
<hr xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemalocation="hr.xsd">
</hr>
定义约束:
xml
<?xml version="1.0" encoding="UTF-8" ?>
<schema xmlns="http://www.w3.org/2001/XMLSchema">
<element name="hr">
<!--complexType标签代表是复杂节点,包含子节点时必须使用此标签-->
<complexType>
<!--sequence标签代表必须按顺序进行严格书写-->
<sequence>
<!--minOccurs="1" maxOccurs="10" 这个标签最少出现一次,最多出现10次-->
<element name="employee" minOccurs="1" maxOccurs="10">
<complexType>
<sequence>
<!--type="string" 指定类型-->
<element name="name" type="string"/>
<!---->
<element name="age">
<!--简单类型约束-->
<simpleType>
<!--限定-->
<restriction base="integer">
<!--最小限定-->
<minInclusive value="18"/>
<!--最大限定-->
<maxInclusive value="60"/>
</restriction>
</simpleType>
</element>
<element name="salary" type="integer"/>
<element name="department">
<complexType>
<sequence>
<element name="dname" type="string"/>
<element name="address" type="string"/>
</sequence>
</complexType>
</element>
</sequence>
<!--use="required"表示必须存在-->
<attribute name="no" type="string" use="required"/>
</complexType>
</element>
</sequence>
</complexType>
</element>
</schema>
解析XML
解析xml的方式
DOM
将标记语言文档一次性加载进内存,在内存中形成一颗dom树
- 优点: 操作方便,可以对文档进行CRUD的所有操作
- 缺点: 占内存
SAX
逐行读取,基于事件驱动的
- 优点: 不占内存
- 缺点: 只能读取,不能增删改
xml常见的解析器
JAXP:
sun公司提供的解析器,支持dom和sax两种思想。
DOM4J:
是一个易用的、开源的库,用于解析XML。它应用于Java平台,具有性能优异、功能强大和极其易使用的特点。Dom4j将XML视为Document对象,XML标签被Dom4j定义为Element对象。
Jsoup:
是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
PULL:
Android操作系统内置的解析器,sax方式的。
DOM4J
是一个易用的、开源的库,用于解析XML。它应用于Java平台,具有性能优异、功能强大和极其易使用的特点。Dom4j将XML视为Document对象,XML标签被Dom4j定义为Element对象。
需要JDK1.8以上
读取XML文档
java
/**
* 描述:通过DOM4J读取xml文件
*/
public class HrReader {
public void readXML() {
String file = "E:\\IdeaProjects\\study\\xml-study\\src\\hr.xml";
// SAXReader类是读取XML文件的核心类,用于将XML解析后以树的形式保存在内存中。
SAXReader reader = new SAXReader();
try {
Document document = reader.read(file);
// 获取XML文档的根节点,就是<hr>标签
Element rootElement = document.getRootElement();
// 用于获取指定标签的集合
List<Element> elementList = rootElement.elements("employee");
for (Element employee : elementList) {
// 用于获取element唯一子节点
Element name = employee.element("name");
// 用于获取标签中的文本
String nameText = name.getText();
System.out.print("姓名:" + nameText);
System.out.print(",年龄:" + employee.elementText("age"));
System.out.print(",工资:" + employee.elementText("salary"));
// 获取节点
Element department = employee.element("department");
String dname = department.element("dname").getText();
System.out.print(",部门:" + dname);
System.out.print(",工作地点:" + department.elementText("address"));
// 获取属性
Attribute att = employee.attribute("no");
String no = att.getText();
System.out.println(",工号:" + no);
}
} catch (DocumentException e) {
e.printStackTrace();
}
}
public static void main(String[] args) {
HrReader hrReader = new HrReader();
hrReader.readXML();
}
}
更新XML文档
java
/**
* 描述:通过DOM4J更新xml文件
*/
public class HrWriter {
public void writeXML(){
String file = "E:\\IdeaProjects\\study\\xml-study\\src\\hr.xml";
SAXReader reader = new SAXReader();
try {
Document document = reader.read(file);
Element rootElement = document.getRootElement();
// 创建一个属于rootElement对象的employee节点
Element employee = rootElement.addElement("employee");
// 创建no属性
employee.addAttribute("no", "3311");
// 创建一个属于employee对象的name节点
Element name = employee.addElement("name");
// 设置name节点的值
name.setText("王五");
employee.addElement("age").setText("22");
employee.addElement("salary").setText("3500");
Element department = employee.addElement("department");
department.addElement("dname").setText("市场部");
department.addElement("address").setText("xx大厦-B1003");
// 创建字符输出流
Writer writer = new OutputStreamWriter(new FileOutputStream(file), "UTF-8");
// 将创建的节点写入文件中
document.write(writer);
writer.close();
} catch (Exception e) {
e.printStackTrace();
}
}
public static void main(String[] args) {
HrWriter hrWriter = new HrWriter();
hrWriter.writeXML();
}
}
Jsoup
Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
- 导入jar包
- 获取Document对象
- 获取对应的标签Element对象
- 获取数据
java
//2.1获取student.xml的path
String path = JsoupDemo1.class.getClassLoader().getResource("student.xml").getPath();
//2.2解析xml文档,加载文档进内存,获取dom树--->Document
Document document = Jsoup.parse(new File(path), "utf-8");
//3.获取元素对象 Element
Elements elements = document.getElementsByTag("name");
System.out.println(elements.size());
//3.1获取第一个name的Element对象
Element element = elements.get(0);
//3.2获取数据
String name = element.text();
System.out.println(name);
Jsoup类
工具类,可以解析html或xml文档,返回Document
- parse:解析html或xml文档,返回Document
- parse(File in, String charsetName):解析xml或html文件的。
- parse(String html):解析xml或html字符串
- parse(URL url, int timeoutMillis):通过网络路径获取指定的html或xml的文档对象
Document类
文档对象。代表内存中的dom树。
获取Element对象:
- getElementById(String id):根据id属性值获取唯一的element对象
- getElementsByTag(String tagName):根据标签名称获取元素对象集合
- getElementsByAttribute(String key):根据属性名称获取元素对象集合
- getElementsByAttributeValue(String key, String value):根据对应的属性名和属性值获取元素对象集合
Elements类
元素Element对象的集合。可以当做 ArrayList<Element>
来使用
Element类
元素对象
获取子元素对象:
- getElementById(String id):根据id属性值获取唯一的element对象
- getElementsByTag(String tagName):根据标签名称获取元素对象集合
- getElementsByAttribute(String key):根据属性名称获取元素对象集合
- getElementsByAttributeValue(String key, String value):根据对应的属性名和属性值获取元素对象集合
获取属性值:
- String attr(String key):根据属性名称获取属性值
获取文本内容:
- String text():获取文本内容
- String html():获取标签体的所有内容(包括字标签的字符串内容)
Node类
节点对象,是Document和Element的父类
快捷查询方式
selector: 选择器
- 使用的方法:Elements select(String cssQuery)
- 语法:参考Selector类中定义的语法
XPath: XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言
- 使用Jsoup的Xpath需要额外导入jar包。
- 查询w3cshool参考手册,使用xpath的语法完成查询
java
//1.获取student.xml的path
String path = JsoupDemo6.class.getClassLoader().getResource("student.xml").getPath();
//2.获取Document对象
Document document = Jsoup.parse(new File(path), "utf-8");
//3.根据document对象,创建JXDocument对象
JXDocument jxDocument = new JXDocument(document);
//4.结合xpath语法查询
//4.1查询所有student标签
List<JXNode> jxNodes = jxDocument.selN("//student");
for (JXNode jxNode : jxNodes) {
System.out.println(jxNode);
}
System.out.println("--------------------");
//4.2查询所有student标签下的name标签
List<JXNode> jxNodes2 = jxDocument.selN("//student/name");
for (JXNode jxNode : jxNodes2) {
System.out.println(jxNode);
}
System.out.println("--------------------");
//4.3查询student标签下带有id属性的name标签
List<JXNode> jxNodes3 = jxDocument.selN("//student/name[@id]");
for (JXNode jxNode : jxNodes3) {
System.out.println(jxNode);
}
System.out.println("--------------------");
//4.4查询student标签下带有id属性的name标签 并且id属性值为itcast
List<JXNode> jxNodes4 = jxDocument.selN("//student/name[@id='itcast']");
for (JXNode jxNode : jxNodes4) {
System.out.println(jxNode);
}
XPath 查找XML数据
XPath路径表达式是XML文档中查找数据的语言,可以极大的提高在提取数据时的开发效率。