【爬虫】– 抓取原创力文档数据

使用RPA工具,实现针对于原创力中不可下载文档的抓取,可延用于其他类似文库

1 使用工具、环境

影刀RPA、WPS Office、谷歌浏览器(非指定)

2 代码流程

3 关键点

  1. 此方案只适合抓取非VIP即可预览全文的文档,抓取下来的数据是图片

  2. 打开网址后,需要鼠标向下滚动一段距离才能触发"下一页"按钮:

  3. 在节点路径:"//*[@id="main"]/div[1]/div[3]/div[2]//img"下,抓取链接(src属性),注意有些是文档中间的广告图片,有效的文档其实是"//view-cache.book118.com"开头的链接,需要过滤掉非此开头的广告链接,如下:

  4. 文档图片刷新很玄学,需要上下滑动网页才能刷新出来,代码中用了无限循环滚动鼠标+等距离上下移动来解决,检测到没有刷新时打转的"待刷新"才抓取图片链接:

  5. 判断是否抓取到最后一页,是对"继续预览"文字的检测,如果不出现就说明已经是最后一页,即可退出程序:

  6. 按照原文档排序命名图片,依次再插入word文档。因为影刀中列表的排序是要等字节的才能判断,所以代码中将图片的名字和对应路径,分别构造成字典的键和值,再循环1到最大值,依次取出字典的对应值,插入word文档中,实现和原文档一样的排序效果

4 执行结果图

5 完整程序





相关推荐
夜阑卧听风吹雨,铁马冰河入梦来17 小时前
字节Midscene 与智谱 AutoGLM-Phone 工具对比
ai·自动化
喵手17 小时前
Python爬虫实战:手把手教你Python 自动化构建志愿服务岗位结构化数据库!
爬虫·python·自动化·数据采集·爬虫实战·零基础python爬虫教学·志愿服务岗位结构数据库打造
小邓睡不饱耶17 小时前
Python多线程爬虫实战:爬取论坛帖子及评论
开发语言·爬虫·python
喵手17 小时前
Python爬虫实战:手把手教你如何采集开源字体仓库目录页(Google Fonts / 其他公开字体目录)!
爬虫·python·自动化·数据采集·爬虫实战·零基础python爬虫教学·开源字体仓库目录页采集
Agent产品评测局18 小时前
企业自动化项目,如何做好内部推广与员工培训?——企业级智能体落地与人才赋能实测指南
运维·人工智能·ai·chatgpt·自动化
axinawang18 小时前
正则表达式
爬虫·python
chenxiandiao31619 小时前
Gemini自动化出图
ai作画·自动化
喵手19 小时前
Python爬虫实战:手把手带你打造私人前端资产库 - Python 自动化抓取开源 SVG 图标全目录!
爬虫·python·自动化·爬虫实战·零基础python爬虫教学·前端资产库打造·采集svg图标目录
MadPrinter19 小时前
GitHub Trending 每日精选 - 2026-03-28
ai·自动化·github·openclaw
个微管理20 小时前
微信小技巧:学会这四招,让你的微信“自动”替你打工
微信·智能手机·自动化·微信公众平台·微信开放平台