写了一个node+python的爬虫小工具玩玩

什么是爬虫?

爬虫,也称为网络爬虫或网络蜘蛛,是指一种自动化程序或脚本,用于在互联网上浏览和提取信息。爬虫模拟人类用户在网页上的行为,通过HTTP协议发送请求,获取网页内容,然后解析并提取感兴趣的数据

在使用爬虫时,需要遵守法律法规和网站的使用条款

  1. 网站的使用条款:每个网站都有自己的使用条款和隐私政策,这些规定了对网站内容和数据的访问和使用限制。在使用爬虫之前,务必仔细阅读并遵守网站的使用条款。
  2. 知识产权:爬虫可能涉及到对网站上的内容进行复制、提取或分发。在进行这些操作时,你应该尊重知识产权法律,包括版权和商标法。确保你有合法的权利使用、复制或分发所爬取的内容。
  3. 网络破坏和滥用:使用爬虫时,应避免对目标网站造成不必要的负载、干扰或破坏。不得以恶意方式使用爬虫,如进行DDoS攻击、破解安全措施或非法搜集个人信息。
  4. 数据隐私和个人信息保护:在爬取网站上的数据时,需特别注意处理个人身份信息和隐私数据的合规性。遵守适用的数据保护法律,确保合法地处理和存储用户数据。
  5. 欺诈和滥用:不得使用爬虫进行欺诈、仿冒、垃圾邮件或其他非法活动。尊重其他用户和网站的利益,遵守公平竞争原则

掘金robots.txt规则

参考文章链接:juejin.cn/post/734569...

node+python

下载对应的依赖,这里不详细介绍,有兴趣的参考上面的文章

bash 复制代码
npm install puppeteer #爬虫 | 自动化UI测试
bash 复制代码
pip install wordcloud #生成词云图
pip install jieba #正文分词

上述文章是要一个一个切换,我对其进行一个小改动,执行左边的菜单栏进行生成词云图,采用无头模式,for循环生成对应的菜单栏图片并保存到wordclound文件夹里面

csharp 复制代码
const elements = await page.$$('.side-navigator-wrap .nav-item-wrap .nav-item-text') //获取menu下面的span
//去掉大模型子站,因为会跳转到一个新的页面//去掉关注,因为打开的页面没有登录账号
elements.splice(0, 2)

最终执行结束的效果

源代码地址:gitee.com/lihuikun1/w...

相关推荐
kyriewen12 分钟前
折腾了半年 AI 编程工作流,最后发现效率瓶颈是桌上那块屏幕
前端·javascript·ai编程
蜗牛前端39 分钟前
codex 全流程开发上线的高颜值礼簿小程序
前端·微信小程序
大龄秃头程序员1 小时前
我在图文流 App 里落地双层缓存、弱网降级与 OOM 治理
前端
老王以为1 小时前
React Renderer 分离的多平台架构
前端·react native·react.js
hunterandroid1 小时前
Kotlin Coroutines 与 Flow:让异步任务更清晰
前端
Bigger2 小时前
从零搭建 AI 代码审查服务:一份前端也能看懂的 Python 学习笔记
前端·ci/cd·ai编程
lichenyang4532 小时前
JSAPI、NAPI、Biz、Imp:ASCF Demo 如何真正调用系统能力和 C++ 能力
前端
lichenyang4533 小时前
IPC、JSVM、UIThread、libuv:ASCF 架构图里最容易混的几个词
前端
用户059540174463 小时前
Redis记忆存储故障恢复测试踩坑实录:手动测试让我漏掉了2个一致性Bug
前端·css
用户2136610035723 小时前
Vue2脚手架工程化与Axios集成
前端·vue.js