Spring Boot基于Jsoup的爬虫实现

一、Jsoup简介

Jsoup是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

Jsoup是根据HTML页面的、、等标签来获取文本内容的,所以先分析一下目标页面结构。打开F12查看页面结构发现,我们要的目标数据在第5个标签 class 属性为provincetr 的 标签里。

图片

比如我们需要爬取的省份名称内容的页面结构如下:

复制代码
<tr class="provincetr">
     <td>
        <a href="11.html">北京市<br></a>
     </td>
     <td>
         <a href="12.html">天津市<br>
     </td>
     .........
</tr>

再拿到标签中标签属性就可以了,省份名称找到了,再看看省对应的城市名在哪里,属性href="11.html" 就是省份下对应的城市页面Url http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/11.html

二、爬虫实现

1、引入Jsoup依赖

复制代码
<dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.7.3</version>
</dependency>

2、代码编写

代码的实现也比较简单,只需要按照原网站的元素结构解析嵌套结构就可以了,如下所示。

复制代码
public static void parseProvinceName(Map<String, Map<String, String>> map, String url) throws IOException {


        /**
         * 获取页面文档数据
         */
        Document doc = Jsoup.connect(url).get();


        /**
         * 获取页面上所有的tbody标签
         */
        Elements elements = doc.getElementsByTag("tbody");


        /**
         * 拿到第五个tbody标签
         */
        Element element = elements.get(4);


        /**
         * 拿到tbody标签下所有的子标签
         */
        Elements childrens = element.children();


        /**
         * 当前页面的URL
         */
        String baseUri = element.baseUri();


        for (Element element1 : childrens) {

            Elements provincetrs = element1.getElementsByClass("provincetr");

            for (Element provincetr : provincetrs) {

                Elements tds = provincetr.getElementsByTag("td");
                for (Element td : tds) {


                    String provinceName = td.getElementsByTag("a").text();
                    String href = td.getElementsByTag("a").attr("href");


                    System.out.println(provinceName + "    " + baseUri + "/" + href);


                    map.put(provinceName, null);
                    /**
                      * 组装城市页面的URL,进入城市页面爬城市名称
                      */
                    parseCityName(map, baseUri + "/" + href, provinceName);
                }
            }
        }
    }

在抓取城市名称的时候有一点要注意,直辖市城市的省份和城市名称是一样的。

复制代码
    public static void parseCityName(Map<String, Map<String, String>> map, String url, String provinceName) throws IOException {


        Document doc = Jsoup.connect(url).get();
        Elements elements = doc.getElementsByTag("tbody");
        Element element = elements.get(4);
        Elements childrens = element.children();


        /**
         * 
         */
        String baseUri = element.baseUri();
        Map<String, String> cityMap = new HashMap<>();


        for (Element element1 : childrens) {


            Elements citytrs = element1.getElementsByClass("citytr");


            for (Element cityTag : citytrs) {
                Elements tds = cityTag.getElementsByTag("td");


                /**
                 * 直辖市,城市名就是本身
                 */
                String cityName = tds.get(1).getElementsByTag("a").text();

                if (cityName.equals("市辖区")) {
                    cityName = provinceName;
                }
                String href1 = tds.get(1).getElementsByTag("a").attr("href");


                System.out.println(cityName + " " + href1);

                cityMap.put(cityName, href1);
            }
        }
        map.put(provinceName, cityMap);
    }

下面是一段测试代码。

复制代码
public class test2 {


    public static void main(String[] args) throws IOException {

        Map<String, Map<String, String>> map = new HashMap<>();

        parseProvinceName(map, "http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018");

        System.out.println(JSON.toJSONString(map));
    }
}

需要说明的是,当前只要省份和城市名称,爬虫没有什么深度,如果还需要区县等信息,可以根据市后边的url 35/3508.html 继续往下爬取。

相关推荐
midsummer_woo22 分钟前
基于springboot的IT技术交流和分享平台的设计与实现(源码+论文)
java·spring boot·后端
别惹CC2 小时前
Spring AI 进阶之路01:三步将 AI 整合进 Spring Boot
人工智能·spring boot·spring
柯南二号3 小时前
【Java后端】Spring Boot 集成 MyBatis-Plus 全攻略
java·spring boot·mybatis
javachen__4 小时前
SpringBoot整合P6Spy实现全链路SQL监控
spring boot·后端·sql
IT毕设实战小研10 小时前
基于Spring Boot 4s店车辆管理系统 租车管理系统 停车位管理系统 智慧车辆管理系统
java·开发语言·spring boot·后端·spring·毕业设计·课程设计
一只爱撸猫的程序猿11 小时前
使用Spring AI配合MCP(Model Context Protocol)构建一个"智能代码审查助手"
spring boot·aigc·ai编程
甄超锋11 小时前
Java ArrayList的介绍及用法
java·windows·spring boot·python·spring·spring cloud·tomcat
武昌库里写JAVA14 小时前
JAVA面试汇总(四)JVM(一)
java·vue.js·spring boot·sql·学习
Pitayafruit15 小时前
Spring AI 进阶之路03:集成RAG构建高效知识库
spring boot·后端·llm
zru_960215 小时前
Spring Boot 单元测试:@SpyBean 使用教程
spring boot·单元测试·log4j