二刷 2024年11月23日星期六

[一：概念](#一：概念)

二：.xml文档位置

三：jsoup快速入门

四：对象的使用

[五：快速查询方式](#五：快速查询方式)

一：概念

jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

二：.xml文档位置

.xml文档放在工程的src目录下，方便操作

三：jsoup快速入门

导入jar包到工程下新建的libs文件夹下，并将libs文件夹进行"Add as library"操作

获取Document对象

获取对应的标签Element对象

获取数据

四：对象的使用

【1】Jsoup :工具类，可以解析html或xml文档，返回Document

parse:解析html或xml文档，返回Document对象

parse(File in,String charserName):解析html或xml文档

parse(String html):解析html或xml字符串

parse(URL url,int timeoutMillis):通过网络路径获取指定的html或xml文档对象

【2】 Document :文档对象。代表内存中的dom树

【3】 Elements : 元素Element对象的集合，可以当作ArrayList<Element>来使用

【4】 Element : 元素对象

（1）. 获取Element对象

getElementById(String id):根据id属性值获取唯一的element对象

getElementsByTag(String tagName) :根据标签名获取元素对象集合

getElementsByAttribute(String key):根据属性名称获取元素对象集合

getElementsByAttributeValue(String key,String id) :根据对应的属性名和属性值获取元素对象集合

（2）. 获取属性值

String attr(String key):根据属性名获取属性值

（3） . 获取文本内容

String text():获取文本内容

String html():获取标签体的所有内容（包括子标签也进行打印了）

【5】Node : 节点对象

是Document和Element的父类

五：快速查询方式

方式1：selector:选择器

使用方法:Elements select(String cssQuery)

语法：参考Selector类里定义的语法

方式2：XPath

即XML路径语言，它是一种用来确定XML(标准通用标记语言的子集）文档中某部分位置的语言。

使用Jsoup的Xpath需要导入额外的jar包。比如：JsoupXpath-0.3.2.jar

Jsoup: 一款Java的HTML解析器

二刷 2024年11月23日 星期六

一： 概念

二：.xml文档位置

三：jsoup快速入门

四：对象的使用

五： 快速查询方式

二刷 2024年11月23日星期六

一：概念

五：快速查询方式