java Spring Boot2.7实现一个简单的爬虫功能

首先 我们要在 pom.xml 中注入Jsoup

这是一个简单的java爬虫框架

xml 复制代码
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.1</version>
</dependency>

然后这里我们直接用main吧 做简单一点

我们创建一个类 叫 WebCrawler

参考代码如下

java 复制代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class WebCrawler {
    public static void main(String[] args) {
        String url = "https://www.baidu.com/?tn=48021271_25_hao_pg"; // 要爬取的网页URL

        try {
            Document doc = Jsoup.connect(url).get(); // 通过Jsoup连接并获取网页内容
            Elements links = doc.select("a[href]"); // 选择所有带有href属性的<a>元素

            for (Element link : links) {
                String linkText = link.text(); // 获取链接文本
                String linkHref = link.attr("href"); // 获取链接URL

                System.out.println(linkText + ": " + linkHref);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

这里 我直接设置为了 百度的首页 因为这个网站每天会有无数用户访问 也不怕我们爬一爬

然后 我们右键运行代码

可以看到这些内容基本也都拿下来了

相关推荐
oak隔壁找我3 分钟前
RabbitMQ 实现延迟通知的完整方案
java·后端
信码由缰7 分钟前
Java的优势有哪些
java
trow14 分钟前
ConcurrentHashMap线程安全实现详解
java·后端
trow14 分钟前
HashMap核心原理与源码剖析
java·后端
可观测性用观测云1 小时前
云原生架构下微服务接入 SkyWalking 最佳实践
java
_殊途2 小时前
项目开发手册-开发流程
java
AI 嗯啦2 小时前
深度学习——Python 爬虫原理与实战:从入门到项目实践
爬虫·python·深度学习
想要AC的sjh2 小时前
华为Java专业级科目一通过心得
java·开发语言·华为
泉城老铁2 小时前
springboot 对接发送钉钉消息,消息内容带图片
前端·spring boot·后端
青鱼入云2 小时前
Java 11对集合类做了哪些增强?
java