Python爬虫实战案例——第四例

文章中所有内容仅供学习交流使用,不用于其他任何目的!严禁将文中内容用于任何商业与非法用途,由此产生的一切后果与作者无关。若有侵权,请联系删除。

目标:网易云音乐歌单评论采集(初级逆向)

地址:aHR0cHM6Ly9tdXNpYy4xNjMuY29tLyMvZGlzY292ZXIvcGxheWxpc3Q=

点击任意歌单进入页面开始分析

搜索评论内容找到评论所在的包

可以看到关键参数主要就是两个------paramsencSecKey

全局搜索encSecKey参数

按F8直到评论区开始加载(因为其他内容加载时使用的也是同一个加密算法,但是参数不同)

可以看到此时两个参数的生成方法已经能够生成调用

在这里我们可以看到几个参数的值,这些参数是作为入口函数调用时需要传入的

那么接下来就要去分析e,f,g三个参数是从何处生成而来。在当前js文件中定位到第二个encSecKey的搜索位置

在这里就可以看到入口处就是刚才定位到的d函数,所以window.asrsea函数中传递的参数依次为d函数中的形式参数d,e,f,g,打上断点来到console中测试输出不难发现这三个值都是固定值,所以就不用再去找其生成逻辑了。

接下来要做的就是将入口函数抠到本地生成两个目标参数,然后将其代入进行请求。初步js代码如下

js 复制代码
function d(d, e, f, g) {
        var h = {}
          , i = a(16);
        return h.encText = b(d, g),
        h.encText = b(h.encText, i),
        h.encSecKey = c(i, e, f),
        h
    }

var d_data = '{"rid":"A_PL_0_26467411","threadId":"A_PL_0_26467411","pageNo":"1","pageSize":"20","cursor":"-1","offset":"0","orderType":"1","csrf_token":""}'
    ,e_data = "010001"
    ,f_data = "00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7"
    ,g_data = "0CoJUm6Qyw8W8jud"
d(d_data, e_data, f_data, g_data)

然后就是补函数补环境,缺什么补什么就可以了,补的时候需要注意每个代码块的顺序,nodejs中RSA算法可以使用crypto-js模块来实现,在当前执行环境下输入npm install crypto-js即可完成模块的安装

补完后执行代码结果如下

将d_data进行动态变化修改

复制代码
{"rid":"A_PL_0_2065854146","threadId":"A_PL_0_2065854146","pageNo":"1","pageSize":"20","cursor":"-1","offset":"0","orderType":"1","csrf_token":""}

这个参数中的各个键值对不难分析,重复刚刚对网页的分析步骤就能够知道rid和threadId表示歌单的标识以及id组成,pageNo为页数,其它参数不用改动,所以要获取其他歌单的评论的话修改rid和threadId即可。

最终执行结果如下:

完整代码移步:https://gitee.com/shuailiuquan

相关推荐
m0_702036536 分钟前
Layui表单input框怎么设置只读或禁用
jvm·数据库·python
weixin_459753946 分钟前
php怎么调用快手开放平台_php如何接入快手授权登录流程
jvm·数据库·python
人道领域10 分钟前
【LeetCode刷题日记】二叉树层序遍历完全指南:从基础到LeetCode实战一篇搞定BFS模板,秒杀4道经典面试题
java·开发语言·数据结构·leetcode·面试·二叉树
承渊政道14 分钟前
CentOS 7部署Elasticsearch完整流程:避坑、基础操作、远程访问
java·linux·elasticsearch·系统架构·centos·远程工作·持续部署
weixin_4440129314 分钟前
SQL中如何实现基于条件的批量逻辑删除_过滤与更新状态位
jvm·数据库·python
研究点啥好呢20 分钟前
面馆开业!客官,你的面(经)好了!
python·阿里云·docker·面试·reactjs·求职招聘·react
Betelgeuse7620 分钟前
从爬虫脚本到 AI 智能体:一次数据挖掘实践的完整进化
人工智能·爬虫·数据挖掘
m0_6138562923 分钟前
Python中PyTorch模型如何显存优化_使用梯度检查点减少显存占用
jvm·数据库·python
咖啡八杯29 分钟前
GoF设计模式——工厂方法模式
java·后端·设计模式
代码羊羊1 小时前
Rust 迭代器完全通俗易懂指南(零基础全覆盖)
java·开发语言·rust