java Spring Boot2.7实现一个简单的爬虫功能

首先 我们要在 pom.xml 中注入Jsoup

这是一个简单的java爬虫框架

xml 复制代码
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.1</version>
</dependency>

然后这里我们直接用main吧 做简单一点

我们创建一个类 叫 WebCrawler

参考代码如下

java 复制代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class WebCrawler {
    public static void main(String[] args) {
        String url = "https://www.baidu.com/?tn=48021271_25_hao_pg"; // 要爬取的网页URL

        try {
            Document doc = Jsoup.connect(url).get(); // 通过Jsoup连接并获取网页内容
            Elements links = doc.select("a[href]"); // 选择所有带有href属性的<a>元素

            for (Element link : links) {
                String linkText = link.text(); // 获取链接文本
                String linkHref = link.attr("href"); // 获取链接URL

                System.out.println(linkText + ": " + linkHref);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

这里 我直接设置为了 百度的首页 因为这个网站每天会有无数用户访问 也不怕我们爬一爬

然后 我们右键运行代码

可以看到这些内容基本也都拿下来了

相关推荐
包饭厅咸鱼15 分钟前
autojs----2025淘宝淘金币跳一跳自动化
java·javascript·自动化
骇客野人24 分钟前
Spring Boot项目快速稳健架构指南
spring boot·后端·架构
码住懒羊羊40 分钟前
【C++】模板进阶 | 继承
android·java·c++
urkay-42 分钟前
Android 线程详解
android·java·kotlin·iphone·androidx
小猪绝不放弃.44 分钟前
Spring Boot项目的核心依赖
java·spring boot·后端
武子康1 小时前
Java-164 MongoDB 认证与权限实战:单实例与分片集群 整体认证配置实战 最小化授权/错误速查/回滚剧本
java·数据库·分布式·mongodb·性能优化·系统架构·nosql
l0sgAi1 小时前
SpringBoot 整合SpringAI实现简单的RAG (检索增强生成)
java·后端
深蓝电商API1 小时前
反反爬虫实战:手撕某知名网站Webpack加密的JavaScript
javascript·爬虫·webpack
ss2732 小时前
基于Springboot + vue3实现的药材中药资源共享平台
java·spring boot·后端
rengang662 小时前
353-Spring AI Alibaba ARK 多模型示例
java·人工智能·spring·多模态·spring ai·ai应用编程