全网最全爬取-b站爬取弹幕+评论之js逆向与xml降本增效

🌟 ❤️

作者:yueji0j1anke

首发于公号:剑客古月的安全屋

字数:801

阅读时间: 10min

声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。合法渗透,本文章内容纯属虚构,如遇巧合,纯属意外

一.总体概述

js逆向

最近被迫又打比赛了,属于是比赛等级一高就得重构一下子,准备凑齐几百万评论进行模型训练,这次盯上b站

先上效果图

爬取过程的日志记录

弹幕结果

评论结果

目前加入了日志、多线程模块,在启动主程序前只需要在config下填入要爬取的视频即可

二.爬虫过程

首先爬弹幕

点击f12即可出现惊喜

但我发现这里的弹幕大多数是按照时间分类的,根本不可能提取到像我之前展示的效果,于是我仔细分析js,得出了其的弹幕其实还映射到了xml文件上的,爬这个xml文件大幅度就可以降本增效,这里就不泄露机密了,有兴趣的可以找我私聊。

其次爬评论,老生常谈了

在评论区疯狂的下拉后即出现了该条请求,纵观全网好像并没有关于评论的翻页爬取,究极原因是因为翻页逻辑并不好找,并且涉及到了js逆向

wts就是时间戳,w_rid一看就是md5了,所以打断点

全区搜索一下,都给他打上,然后加载评论

最后发现是根据我们的param与一个静态密钥组合而成,随后生成md5值(大过程略掉,避免小破站找我麻烦)

三.后续

接口没有限制,爬了大概两百多万份,美滋滋了,接下来就是做情感分析,词云图和可视化入库等操作了~

目前已经爬取了x音,小x书,某乎

原文链接 爬虫实训-b站爬取弹幕+评论百万之js逆向与xml降本增效

如果对项目有兴趣的小伙伴可以关注公众号 剑客古月的安全屋 获取联系方式进行私聊~

相关推荐
知识分享小能手29 分钟前
Vue3 学习教程,从入门到精通,Axios 在 Vue 3 中的使用指南(37)
前端·javascript·vue.js·学习·typescript·vue·vue3
fantasy_arch3 小时前
pytorch例子计算两张图相似度
人工智能·pytorch·python
七七&5564 小时前
2024年08月13日 Go生态洞察:Go 1.23 发布与全面深度解读
开发语言·网络·golang
java坤坤4 小时前
GoLand 项目从 0 到 1:第八天 ——GORM 命名策略陷阱与 Go 项目启动慢问题攻坚
开发语言·后端·golang
元清加油4 小时前
【Golang】:函数和包
服务器·开发语言·网络·后端·网络协议·golang
健康平安的活着4 小时前
java之 junit4单元测试Mockito的使用
java·开发语言·单元测试
WBluuue5 小时前
数学建模:智能优化算法
python·机器学习·数学建模·爬山算法·启发式算法·聚类·模拟退火算法
烛阴5 小时前
精简之道:TypeScript 参数属性 (Parameter Properties) 详解
前端·javascript·typescript
赴3355 小时前
矿物分类案列 (一)六种方法对数据的填充
人工智能·python·机器学习·分类·数据挖掘·sklearn·矿物分类
大模型真好玩5 小时前
一文深度解析OpenAI近期发布系列大模型:意欲一统大模型江湖?
人工智能·python·mcp