java 中开源的html解析库Jsoup 简单例子

下面是一个使用Jsoup库解析HTML的简单Java例子。这个例子展示了如何使用Jsoup从一个HTML字符串中提取数据。

首先,确保你已经将Jsoup作为依赖项添加到你的项目中。如果你使用的是Maven,可以在`pom.xml`文件中添加以下依赖:

复制代码
<dependencies>
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.14.3</version> <!-- 请检查最新版本 -->
    </dependency>
</dependencies>

然后,你可以使用以下Java代码来解析HTML:

复制代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupExample {
    public static void main(String[] args) {
        String html = "<html><head><title>Sample Title</title></head>"
                + "<body><p>Sample Content</p><div class='links'><a href='https://www.example1.com'>Example1</a>"
                + "<a href='https://www.example2.com'>Example2</a></div></body></html>";

        Document doc = Jsoup.parse(html);

        // 获取标题
        String title = doc.title();
        System.out.println("Title: " + title);

        // 获取所有链接
        Elements links = doc.select("a[href]");
        for (Element link : links) {
            System.out.println("Link: " + link.attr("href"));
            System.out.println("Text: " + link.text());
        }

        // 获取具有特定类的元素
        Elements divLinks = doc.select("div.links");
        for (Element div : divLinks) {
            System.out.println("Div Class: " + div.className());
            // 可以进一步操作div元素
        }
    }
}

在这个例子中,我们首先创建了一个包含HTML内容的字符串。然后,我们使用Jsoup.parse()方法来解析这个字符串,并得到了一个Document对象,它可以代表整个HTML文档。

接着,我们使用Document对象的title()方法来获取文档的标题。使用select()方法,我们可以通过CSS选择器来选择和提取特定的元素。在这个例子中,我们提取了所有<a>标签的href属性和文本内容,以及具有links类的<div>标签。

这个例子展示了Jsoup的基本用法,包括HTML解析、选择元素和提取属性。Jsoup还有很多其他功能,比如处理实时的HTML文档、修改DOM结构、清理HTML等。

相关推荐
Byron__4 分钟前
Spring核心面试知识点(IoC/Bean生命周期/AOP/事务)
java·spring·面试
AI人工智能+电脑小能手13 分钟前
【大白话说Java面试题 第78题】【Mysql篇】第8题:解释下最左前缀原则?
java·开发语言·数据库·mysql·面试
luoganttcc27 分钟前
算子级开源、不依赖 torch_npu:从零实现 Ascend 大模型推理引擎
开源·大模型·推理引擎
hdsoft_huge33 分钟前
全开源数字孪生系统搭建方案:全套技术文档
vue.js·开源·node.js·echarts·webstorm
一起逃去看海吧33 分钟前
对接LangSmith
java·前端·数据库
wyhwust34 分钟前
web应用技术-第一次课后作业
java·前端·数据库
Hommy8835 分钟前
【剪映小助手】视频处理接口
开源·github·音视频·视频剪辑自动化·剪映api
java1234_小锋37 分钟前
什么是 RAG(检索增强生成)?请简述 Spring AI 实现 RAG 的完整流程,包括涉及的核心组件。
java·人工智能·spring·rag
砍材农夫1 小时前
物联网 基于netty核心实战-心跳保活机制
java·后端·物联网·struts·servlet·netty
小江的记录本1 小时前
【JVM虚拟机】垃圾回收GC:垃圾判定算法:引用计数法、可达性分析算法(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·算法·spring·面试