【爬虫】– 抓取原创力文档数据

使用RPA工具,实现针对于原创力中不可下载文档的抓取,可延用于其他类似文库

1 使用工具、环境

影刀RPA、WPS Office、谷歌浏览器(非指定)

2 代码流程

3 关键点

  1. 此方案只适合抓取非VIP即可预览全文的文档,抓取下来的数据是图片

  2. 打开网址后,需要鼠标向下滚动一段距离才能触发"下一页"按钮:

  3. 在节点路径:"//*[@id="main"]/div[1]/div[3]/div[2]//img"下,抓取链接(src属性),注意有些是文档中间的广告图片,有效的文档其实是"//view-cache.book118.com"开头的链接,需要过滤掉非此开头的广告链接,如下:

  4. 文档图片刷新很玄学,需要上下滑动网页才能刷新出来,代码中用了无限循环滚动鼠标+等距离上下移动来解决,检测到没有刷新时打转的"待刷新"才抓取图片链接:

  5. 判断是否抓取到最后一页,是对"继续预览"文字的检测,如果不出现就说明已经是最后一页,即可退出程序:

  6. 按照原文档排序命名图片,依次再插入word文档。因为影刀中列表的排序是要等字节的才能判断,所以代码中将图片的名字和对应路径,分别构造成字典的键和值,再循环1到最大值,依次取出字典的对应值,插入word文档中,实现和原文档一样的排序效果

4 执行结果图

5 完整程序





相关推荐
小白学大数据2 小时前
Python 自动化爬取网易云音乐歌手歌词实战教程
爬虫·python·okhttp·自动化
深蓝电商API2 小时前
京东API批量操作优化:单次1000条限制的突破方案
爬虫·接口·api·京东api
守城小轩6 小时前
基于Chrome140的Yahoo自动化(关键词浏览)——需求分析&环境搭建(一)
运维·自动化·chrome devtools·浏览器自动化·指纹浏览器·浏览器开发
chaofan9809 小时前
2026年大模型接入实测:高并发场景下企业级API网关横向对比与选型指南
人工智能·gpt·自动化·api
Alex艾力的IT数字空间9 小时前
再思“把事情做对”与“把事情做好”的辩证关系与先后顺序
信息可视化·需求分析·学习方法·抽象工厂模式·远程工作·原型模式·中介者模式
JoshRen9 小时前
2026教程:上传Excel,用Gemini 3镜像站多模态一键生成问卷分析图表代码与结论(附国内免费方案)
excel
舟遥遥娓飘飘9 小时前
如何解决 Claude Code 频繁授权(权限请求)问题
自动化·ai编程
V搜xhliang02469 小时前
OpenClaw科研全场景用法:从文献到实验室的完整自动化方案
运维·开发语言·人工智能·python·算法·microsoft·自动化
Aurorar0rua10 小时前
CS50 x 2024 Notes C - 07
c语言·学习方法
liangdabiao12 小时前
乐高摩托车深度报告-致敬张雪夺冠 -基于llm-wiki技术自动化写文章的效果
运维·人工智能·自动化