深度解析:用Python爬虫逆向破解某查查加密数据!

大家好!我是爱摸鱼的小鸿,关注我,收看编程干货。

本期文章将带你详细地逆向解析某查查 加密数据的构造逻辑,Follow me~

特别声明 :本篇文章仅供学习与研究使用,不用做任何非法用途,请大家遵守相关法律法规
作者:Maker陈,本文字数:1.2k,阅读时长≈2分钟

目录

一、逆向目标

逆向网站:

python 复制代码
aHR0cHM6Ly93d3cuaGFuZ2hhbmdjaGEuY29t

逆向接口:

python 复制代码
aHR0cHM6Ly9hcGkuaGFuZ2hhbmdjaGEuY29tL2hoYy9hbm9ueW1vdXMvaW52ZXN0L2dldFRvcFRlbk5ld3M/ZmlsdGVyPSU3QiUyMnNraXAlMjIlM0EwJTJDJTIybGltaXQlMjIlM0EyMCU3RA==

二、前期准备

欲行其事,必先利其器,本期逆向实战需要2个第三方库:

用于模拟接口请求的库:

python 复制代码
pip install requests

用于数据加密或解密算法的库:

python 复制代码
pip install pycryptodome

三、逆向分析

使用开发者工具,切换到network面板,找到目标接口:

发现响应数据是加密过的:

全局搜索是进行逆向分析最简单直接的方法,那么使用什么关键词进行全局搜索呢?

如果使用响应数据字段data进行全局搜索肯定不太行,既然我们想要的是最后的解密数据,可以先使用关键词decrypt 进行全局搜索,并在定义位置和return位置打上断点执行:

我们发现Decrypt函数就是解密函数,该函数有两个形参word和keyStr,word就是加密过的响应数据,而keyStr是写死的字符串:

python 复制代码
3sd&d24h@$udD2s

并且函数中可直观地看到,解密使用的是AES,模式是ECB,填充方式为Pkcs7

而这种解密方式可以直接通过pycryptodome 库完成解密过程,不用再模拟执行JS了,至此逆向分析解密算法完成

四、Python实现解密算法

解密过程我们已经分析好了,先用Python简单写一下;

python 复制代码
import base64
from Crypto.Cipher import AES
from Crypto.Util.Padding import pad, unpad


def aes_decrypt(padding=None, encrypt_str=None, key_str=None, mode=None):
    key_str = key_str.encode('utf-8')
    aes = AES.new(key_str, mode)
    
    encrypt_str = base64.b64decode(encrypt_str)
    decrypt_str = aes.decrypt(encrypt_str).decode('utf-8')

    return decrypt_str

再用requests模拟请求看一下解密数据:

python 复制代码
import requests
import urllib3
from urllib.parse import quote

urllib3.disable_warnings()


key = '3sd&d24h@$udD2s*'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
}
condition = '{"skip":0,"limit":20}'
api = f'https://*/hhc/anonymous/invest/getTopTenNews?filter={quote(condition)}'
res = requests.get(api, headers=headers, verify=False).json()
data = res.get('data')
data = aes_decrypt(padding='pkcs7', encrypt_str=data, key_str=key, mode=AES.MODE_ECB)
print(data)

运行看一下数据格式:

成功解密,返回数据类型是str类型,在数据的最后我们发现有一个类似省略号的东西,字符长度为11,我们需要把这个东西去掉,才能较方面的转换为JSON对象并解析,有三种方式可解决:

python 复制代码
#第一种解决方式
length = ord(decrypt_str[-1])
return decrypt_str[:-length]

#第二种解决方式
return decrypt_str[:-11]

#第三种解决方式
return decrypt_str.replace('           ', '')

去掉这个麻烦的东西以后就可以转换为JSON对象获取数据了:

python 复制代码
import json

json_object = json.loads(data)
for d in json_object['data']['data']:
    print(d, '\n')

数据变得可观了许多;

如果您对爬虫逆向感兴趣、想要深入了解或者有疑问,欢迎与我进行学习与交流。

五、作者Info

Author:小鸿的摸鱼日常,Goal:让编程更有趣!

专注于算法、爬虫,Web开发,数据分析、自然语言处理,AI等,期待你的关注,让我们一起成长、一起Coding!

版权说明:本文禁止抄袭、转载,侵权必究!

相关推荐
waterHBO1 小时前
python 爬虫 selenium 笔记
爬虫·python·selenium
编程零零七2 小时前
Python数据分析工具(三):pymssql的用法
开发语言·前端·数据库·python·oracle·数据分析·pymssql
AIAdvocate4 小时前
Pandas_数据结构详解
数据结构·python·pandas
小言从不摸鱼4 小时前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt
FreakStudio6 小时前
全网最适合入门的面向对象编程教程:50 Python函数方法与接口-接口和抽象基类
python·嵌入式·面向对象·电子diy
redcocal8 小时前
地平线秋招
python·嵌入式硬件·算法·fpga开发·求职招聘
artificiali8 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python
RaidenQ8 小时前
2024.9.13 Python与图像处理新国大EE5731课程大作业,索贝尔算子计算边缘,高斯核模糊边缘,Haar小波计算边缘
图像处理·python·算法·课程设计
花生了什么树~.9 小时前
python基础知识(六)--字典遍历、公共运算符、公共方法、函数、变量分类、参数分类、拆包、引用
开发语言·python
Trouvaille ~9 小时前
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
图像处理·python·机器学习·numpy·信号处理·时间序列分析·科学计算