Jsoup: 一款Java的HTML解析器

二刷 2024年11月23日 星期六

目录

[一: 概念](#一: 概念)

二:.xml文档位置

三:jsoup快速入门

四:对象的使用

[五: 快速查询方式](#五: 快速查询方式)


一: 概念

jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

二:.xml文档位置

.xml文档放在工程的src目录下,方便操作

三:jsoup快速入门

  1. 导入jar包到工程下新建的libs文件夹下,并将libs文件夹进行"Add as library"操作
  2. 获取Document对象
  3. 获取对应的标签Element对象
  4. 获取数据

四:对象的使用

【1】Jsoup :工具类,可以解析html或xml文档,返回Document

parse:解析html或xml文档,返回Document对象

parse(File in,String charserName):解析html或xml文档

parse(String html):解析html或xml字符串

parse(URL url,int timeoutMillis):通过网络路径获取指定的html或xml文档对象

【2】 Document :文档对象。代表内存中的dom树

【3】 Elements : 元素Element对象的集合,可以当作ArrayList<Element>来使用

【4】 Element : 元素对象

(1). 获取Element对象

getElementById(String id):根据id属性值获取唯一的element对象

getElementsByTag(String tagName) :根据标签名获取元素对象集合

getElementsByAttribute(String key):根据属性名称获取元素对象集合

getElementsByAttributeValue(String key,String id) :根据对应的属性名和属性值获取元素对象集合

(2). 获取属性值

String attr(String key):根据属性名获取属性值

(3) . 获取文本内容

String text():获取文本内容

String html():获取标签体的所有内容(包括子标签也进行打印了)

【5】Node : 节点对象

是Document和Element的父类

五: 快速查询方式

方式1:selector:选择器

使用方法:Elements select(String cssQuery)

语法:参考Selector类里定义的语法

方式2:XPath

即XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。

使用Jsoup的Xpath需要导入额外的jar包。比如:JsoupXpath-0.3.2.jar

相关推荐
爱勇宝1 小时前
小红花成长新版:模板来了,鼓励也更容易开始
前端·后端·程序员
用户47949283569151 小时前
翻完 lark-cli 的 17 万行 Go 代码,我学到了什么
后端·openai
竹林8181 小时前
Solana前端开发:我在一个NFT铸造页面上被@solana/web3.js的Connection和Transaction签名坑了两天
前端
卷无止境1 小时前
Eigen 库如何借助 OpenMP 加速计算
c++·后端
羑悻1 小时前
别再只接个 API 了!我用 EdgeOne Makers 手搓了一个“懂业务”的官网售前 AI
后端
冬奇Lab2 小时前
每日一个开源项目(第144篇):ai-website-cloner-template - 一条命令、多 Agent 并行,把任意网站逆向成 Next.js 代码
前端·人工智能·开源
玄玄子2 小时前
webpack publicPath作用原理
前端·webpack·程序员
HduSy2 小时前
帮 Claude Code 做了个菜单栏 Token 看板,聊聊里面的一些实现逻辑
前端
用户059540174462 小时前
用了6个月LangChain,才发现AI Agent的记忆存储一直有坑——写了23个Pytest用例才彻底修好
前端·css
卷无止境2 小时前
OpenMPI、MPICH 与 OpenMP:关系、核心概念与架构全解
c++·后端