java Spring Boot2.7实现一个简单的爬虫功能

首先 我们要在 pom.xml 中注入Jsoup

这是一个简单的java爬虫框架

xml 复制代码
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.1</version>
</dependency>

然后这里我们直接用main吧 做简单一点

我们创建一个类 叫 WebCrawler

参考代码如下

java 复制代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class WebCrawler {
    public static void main(String[] args) {
        String url = "https://www.baidu.com/?tn=48021271_25_hao_pg"; // 要爬取的网页URL

        try {
            Document doc = Jsoup.connect(url).get(); // 通过Jsoup连接并获取网页内容
            Elements links = doc.select("a[href]"); // 选择所有带有href属性的<a>元素

            for (Element link : links) {
                String linkText = link.text(); // 获取链接文本
                String linkHref = link.attr("href"); // 获取链接URL

                System.out.println(linkText + ": " + linkHref);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

这里 我直接设置为了 百度的首页 因为这个网站每天会有无数用户访问 也不怕我们爬一爬

然后 我们右键运行代码

可以看到这些内容基本也都拿下来了

相关推荐
无风之翼11 分钟前
android12下拉菜单栏界面上方显示无内容
android·java
程序员梁白开11 分钟前
从源码到实战:线程池处理任务的完整流程解析
java·jvm·spring·java-ee
u***13715 分钟前
Tomcat的升级
java·tomcat
t***p93517 分钟前
springboot项目读取 resources 目录下的文件的9种方式
java·spring boot·后端
C***115030 分钟前
Tomcat下载,安装,配置终极版(2024)
java·tomcat
ScriptBIN36 分钟前
Maven高级
java·maven
Empty_77739 分钟前
K8S-Pod资源对象
java·容器·kubernetes
D***y20141 分钟前
SpringSecurity 实现token 认证
java
N***77881 小时前
Tomcat 乱码问题彻底解决
java·tomcat
yaoxin5211231 小时前
256. Java 集合 - 掌握 Java 的 merge () 方法:提升 Map 操作效率与灵活性的关键
java·开发语言