hutool-http实现离线爬虫

文章目录

1.数据爬取流程

1.分析数据源(怎么获取)

2.拿到数据后怎么处理

3.写入数据库存储

2.离线爬虫(Hutool-http实现)

1.获取数据

这里返回的是json格式的字符串

2.数据清洗

通过该工具类将json数据转换成map对象

有一些数据还是数组,通过toList装成List集合后就可以通过该方法转成 Json字符串

3.为什么有各种类型的强转

从调试的结果可以看出,虽然转换成了map集合,但各自原有的类型依然存在,我们强转之后就能调用该类型的方法

4.数据入库

我们使用mybatis-plus的批量插入

3.测试完整代码

plain 复制代码
    @Autowired
    private PostService postService;
    /**
     * 离线爬取数据入库
     */
    @Test
    void getLiXian() {
        /**
         * 1.获取数据
         */
        //请求的地址
        String url = "别人的接口";
        //请求的参数
        String json = "别人的json格式参数";
        String result = HttpRequest.post(url)
                .body(json)
                .execute().body();
        /**
         * 2.数据清洗:json转对象
         */
        Map<String,Object> map = JSONUtil.toBean(result, Map.class);
        JSONObject data = (JSONObject) map.get("data");
        JSONArray records = (JSONArray)data.get("records");
        List<Post> postList = new ArrayList<>();
        for (Object record : records) {
            JSONObject recordNew = (JSONObject) record;
            Post post = new Post();

            JSONArray tags = (JSONArray) recordNew.get("tags");
            List<String> list = tags.toList(String.class);
            post.setTags(JSONUtil.toJsonStr(list));

            post.setContent(recordNew.getStr("content"));
            post.setThumbNum(0);
            post.setFavourNum(0);
            post.setUserId(0L);
            post.setCreateTime(new Date());
            post.setUpdateTime(new Date());
            postList.add(post);
        }
        /**
         * 3.离线爬取数据存储到数据库
         */
        postService.saveBatch(postList);
    }
相关推荐
Trouvaille ~1 小时前
【Linux】TCP协议基础与连接管理详解:从三次握手到四次挥手
linux·运维·服务器·网络·c++·网络协议·tcp/ip
njmanong2 小时前
Google点名处置IPIDEA及子品牌:代理IP行业进入强治理期
网络·网络协议·tcp/ip
郝学胜-神的一滴3 小时前
TCP通讯的艺术:从握手到挥手的优雅对话
开发语言·网络·网络协议·tcp/ip·程序人生
深蓝电商API4 小时前
爬虫日志分析:快速定位被封原因
爬虫·python
CS创新实验室5 小时前
《计算机网络》深入学:TCP协议的设计与演进
网络协议·tcp/ip·计算机网络
是Dream呀5 小时前
自动化打造信息影响力:用 Web Unlocker 和 n8n 打造你的自动化资讯系统
运维·前端·爬虫·自动化
运维有小邓@9 小时前
基于证书的身份验证:入门指南
网络协议·https·ssl
她说..9 小时前
万字详解WebSocket的用法
java·网络·websocket·网络协议·springboot
喵手9 小时前
Python爬虫实战:研究生招生简章智能采集系统 - 破解考研信息不对称的技术方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集研究生招生简章·考研信息不对称·采集考研信息数据csv导出
张雨zy10 小时前
HarmonyOS 鸿蒙网络层封装实践:构建稳健的HTTP请求客户端
http·华为·harmonyos