全网最全爬取-b站爬取弹幕+评论之js逆向与xml降本增效

月金剑客2024-05-24 16:55

🌟 ❤️

作者：yueji0j1anke

首发于公号：剑客古月的安全屋

字数：801

阅读时间: 10min

声明：请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，文章作者不为此承担任何责任。合法渗透，本文章内容纯属虚构，如遇巧合，纯属意外

js逆向

最近被迫又打比赛了，属于是比赛等级一高就得重构一下子，准备凑齐几百万评论进行模型训练，这次盯上b站

先上效果图

爬取过程的日志记录

弹幕结果

评论结果

目前加入了日志、多线程模块，在启动主程序前只需要在config下填入要爬取的视频即可

首先爬弹幕

点击f12即可出现惊喜

但我发现这里的弹幕大多数是按照时间分类的，根本不可能提取到像我之前展示的效果，于是我仔细分析js，得出了其的弹幕其实还映射到了xml文件上的，爬这个xml文件大幅度就可以降本增效，这里就不泄露机密了，有兴趣的可以找我私聊。

其次爬评论，老生常谈了

在评论区疯狂的下拉后即出现了该条请求，纵观全网好像并没有关于评论的翻页爬取，究极原因是因为翻页逻辑并不好找，并且涉及到了js逆向

wts就是时间戳，w_rid一看就是md5了，所以打断点

全区搜索一下，都给他打上，然后加载评论

最后发现是根据我们的param与一个静态密钥组合而成，随后生成md5值(大过程略掉，避免小破站找我麻烦)

接口没有限制，爬了大概两百多万份，美滋滋了，接下来就是做情感分析，词云图和可视化入库等操作了~

目前已经爬取了x音，小x书，某乎

如果对项目有兴趣的小伙伴可以关注公众号剑客古月的安全屋获取联系方式进行私聊~