8.无代码爬虫软件做网页数据抓取流程——滚动、翻页(分页)处理

首先,多数情况下免费版本的功能,已经可以满足绝大多数采集需求,想了解八爪鱼采集器版本区别的详情,请访问这篇帖子: https://blog.csdn.net/cctv1123/article/details/139581468

八爪鱼采集器免费版和个人版、团队版下载链接:

1.软件分享[耶]八爪鱼,爬取了几百条网站上的公开数据,不用学代码真的很方便。[得意]2.发现了一个很棒的软件,?不用学python也可以爬数据!用它爬了n多数据。3.微博、电商、各大新闻平台的数据,很多可以用模版一键爬取数据,非常方便!4.做科研项目要采集很多数据,[耶]科研人的救命神器,推荐!5.实时获取楼市动态,用八爪鱼收集网上关于楼盘的用户评价,不用学代码直接爬了很多数据6.用八爪鱼实时爬取电商数据,追踪竞争对手价格,商品信息一手掌握[得意]7.用八爪鱼自动收集全网最新新闻,迅速获取热点资讯,超方便?https://affiliate.bazhuayu.com/retrieve


通过前面的学习,我们已经进入到设计采集规则的实操课程。下面以一个实际案例来解答今天的课程要点:

滚动/瀑布流加载方式

在这个案例就是线下滚动鼠标会一直加载出更多的信息。

那么我们就可以用这个功能模块来实现网页向下滚动

根据箭头指示,点击"添加流程"

点击"循环"添加功能模块

在基础设置中点击"循环方式",切换到"滚动网页"

根据需要修改滚动模式,如果只是滚动某一个小区域,就切换到"局部"

滚动方式根据情况,选择滚动到底部还是向下滚动一屏。

如果需要设定滚动次数,就在这里的"循环次数"进行设定。

无内容更新时结束循环,也就是滚动到最下面了,1秒钟(根据你的设置)没有加载新的内容,就自动停止这个循环,进行后面的动作。

如果你要把其他的功能,再做一下详细的设置,根据实际情况操作即可。

翻页/分页的加载方式

例如我们要采集京东评论的内容,这里有100页,它的翻页按钮是"下一页",

那么我们就需要定位"下一页"按钮的xpath,然后构建一个循环点击它的动作来执行自动翻页。

上图是通过点选方案进行循环点击的构建,下图再说一下,通过手动添加模块的方式构建

先将"循环"中的循环方式调整为"单个元素",在填入正确的xpath信息

然后在循环中,添加一个点击动作,这个动作的xpath为空,但是在前面需要选择"拼接循环项xpath"

最后,我们在这个循环的中间,添加一个数据提取的模块,提取的元素信息为,当前评论的页码数

我们来测试一下

本接课程我们说了两种翻页情况,滚动/瀑布流和翻页加载方式,下节课我们来说说网页界面中的弹出窗口怎么移除。


这贴是教程专栏的目录链接:

八爪鱼采集器入门基础教程,日常更新中-CSDN博客

相关推荐
用户8356290780512 分钟前
使用 Python 设置 Excel 数据验证
后端·python
Nick_zcy16 分钟前
小说在线阅读网站和小说管理系统 · 功能全解析
java·后端·python·springboot·ruoyi
*Lisen22 分钟前
从零手写 FlashAttention(PyTorch实现 + 原理推导)
人工智能·pytorch·python
猫的玖月24 分钟前
(一)MY SQL概述
数据库·sql
用户83562907805138 分钟前
用 Python 轻松在 Excel 工作表中应用条件格式
后端·python
red1giant_star43 分钟前
Python根据文件后缀统计文件大小、找出文件位置(仿Everything)
后端·python
ZhiqianXia1 小时前
《The Design of Design》阅读笔记
前端·笔记·microsoft
雷欧力1 小时前
如何使用 Claude API?3 种接入方案实测,附完整代码(2026)
python·claude
脑子进水养啥鱼?1 小时前
PostgreSQL .history 文件
数据库·postgresql
神仙别闹1 小时前
基于 Python 实现 BERT 的情感分析模型
开发语言·python·bert