Python 爬虫如何分析并模拟 JS 动态请求

一、JS 动态请求的逆向工程核心逻辑

JS 动态请求的本质是浏览器通过 JavaScript 脚本，按照特定的规则（请求方法、参数、头信息、加密方式）向后端 API 接口发送请求，后端返回 JSON、XML 等结构化数据后，前端再进行渲染。逆向工程的核心就是还原这些请求规则，其流程可分为四步：

定位目标请求：通过浏览器开发者工具找到承载核心数据的异步请求；
分析请求参数：明确请求的 URL、方法、头信息、Query/String 参数的含义与生成规则；
破解加密逻辑：若参数存在加密（如 MD5、AES、RSA 或自定义算法），需逆向 JS 代码还原加密过程；
模拟请求发送：使用 Python 按照分析出的规则构造请求，获取数据。

这一流程的关键在于精准定位请求 和破解参数加密，也是逆向工程的难点所在。

二、逆向分析工具选型

完成 JS 动态请求的逆向，需要搭配合适的工具链，以下是常用工具的功能与选型建议：

工具类别	推荐工具	核心作用
浏览器调试工具	Chrome/Firefox 开发者工具	抓包、查看请求参数、调试 JS 代码
JS 代码格式化 / 反混淆	Prettier、Chrome 开发者工具 Sources 面板	将混淆后的 JS 代码格式化，便于阅读
加密算法验证	Online Hash Calculator、CryptoJS 在线工具	验证逆向出的加密算法是否正确
Python 请求库	requests/httpx（同步）、aiohttp（异步）	构造并发送模拟请求
JS 代码执行	PyExecJS、Node.js	在 Python 中执行逆向得到的 JS 加密代码

其中，Chrome 开发者工具是最基础也是最重要的工具，几乎能完成从抓包到初步 JS 分析的所有工作。

三、逆向分析实战：以某动态数据接口为例

1. 定位目标请求

以某资讯网站的动态新闻列表为例，我们需要获取其分页加载的新闻数据：

打开 Chrome 浏览器，访问目标网站，按下F12打开开发者工具，切换到Network面板；
勾选XHR/Fetch筛选器（只显示异步请求），滚动页面触发新闻的分页加载；
在请求列表中，找到名称包含news_list的请求（通常为 JSON 格式），这就是承载新闻数据的核心请求。

2. 分析请求参数

点击该请求，切换到Headers标签，可查看关键信息：

Request URL ：https://example.com/api/news/list（目标 API 接口）；
Request Method：POST（请求方法）；
Form Data/Payload ：包含page（页码）、limit（每页条数）、timestamp（时间戳）、sign（签名）等参数；
Request Headers ：包含User-Agent、Referer、Token等头信息。

其中，page和limit是普通参数，timestamp是当前时间戳，而sign是疑似加密的签名参数，这是逆向的重点。

3. 破解签名生成逻辑

要找到sign的生成规则，需定位对应的 JS 代码：

在开发者工具的Network 面板中，右键该请求，选择Open in Sources panel，定位到发起请求的 JS 代码位置；
若代码被混淆，可使用Prettier 格式化（点击 Sources 面板的{}按钮）；
搜索sign关键词，找到签名生成的代码段，例如：javascript运行

javascript 复制代码

function generateSign(timestamp, page, limit) {
    const secret = "abc123xyz"; // 固定密钥
    const str = timestamp + page + limit + secret;
    return md5(str); // MD5加密
}

此时，我们就逆向出了sign的生成规则：将时间戳、页码、每页条数与固定密钥拼接后，进行 MD5 加密。

四、Python 模拟请求的完整实现

1. 需求定义

基于上述逆向结果，实现 Python 爬虫：

构造请求参数，生成签名；
发送 POST 请求获取新闻数据；
解析并保存数据。

2. 实现代码

python 复制代码

import requests
import time
import hashlib
import json
from typing import Dict, List

class JSDynamicRequestCrawler:
    def __init__(self):
        # 目标API接口
        self.api_url = "https://example.com/api/news/list"
        # 固定密钥（逆向得到）
        self.secret = "abc123xyz"
        # 请求头（从浏览器Headers中复制）
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
            "Referer": "https://example.com/news",
            "Content-Type": "application/json;charset=UTF-8"
        }

    def generate_sign(self, timestamp: str, page: int, limit: int) -> str:
        """根据逆向规则生成签名"""
        # 拼接字符串
        str_to_sign = f"{timestamp}{page}{limit}{self.secret}"
        # MD5加密
        md5_obj = hashlib.md5()
        md5_obj.update(str_to_sign.encode("utf-8"))
        sign = md5_obj.hexdigest()
        return sign

    def get_news_list(self, page: int, limit: int = 10) -> List[Dict]:
        """获取单页新闻列表数据"""
        # 生成时间戳（秒级，与JS中的一致）
        timestamp = str(int(time.time()))
        # 生成签名
        sign = self.generate_sign(timestamp, page, limit)
        # 构造请求参数
        payload = {
            "page": page,
            "limit": limit,
            "timestamp": timestamp,
            "sign": sign
        }

        try:
            # 发送POST请求
            response = requests.post(
                url=self.api_url,
                headers=self.headers,
                json=payload  # 若接口为form-data，使用data=payload
            )
            # 验证响应状态
            response.raise_for_status()
            # 解析JSON数据
            data = response.json()
            if data.get("code") == 200:  # 假设接口返回code=200表示成功
                news_list = data.get("data", {}).get("list", [])
                print(f"成功获取第{page}页数据，共{len(news_list)}条新闻")
                return news_list
            else:
                print(f"接口返回错误：{data.get('msg')}")
                return []
        except requests.exceptions.RequestException as e:
            print(f"请求失败：{str(e)}")
            return []

    def save_data(self, all_news: List[Dict], file_path: str = "news_list.json"):
        """保存数据到本地JSON文件"""
        with open(file_path, "w", encoding="utf-8") as f:
            json.dump(all_news, f, ensure_ascii=False, indent=4)
        print(f"所有数据已保存到{file_path}，共{len(all_news)}条新闻")

    def start_crawl(self, max_page: int = 5):
        """启动爬虫，爬取多页数据"""
        all_news = []
        for page in range(1, max_page + 1):
            news_list = self.get_news_list(page)
            if not news_list:
                # 若某页数据获取失败，可选择停止或继续
                print(f"第{page}页数据获取失败，停止爬取")
                break
            all_news.extend(news_list)
            # 避免请求过快，添加短暂延迟
            time.sleep(1)
        self.save_data(all_news)

if __name__ == "__main__":
    # 初始化爬虫并启动
    crawler = JSDynamicRequestCrawler()
    crawler.start_crawl(max_page=5)

3. 代码解析

签名生成 ：generate_sign方法按照逆向得到的规则，将时间戳、页码、每页条数与固定密钥拼接后进行 MD5 加密，生成签名参数；
请求发送 ：get_news_list方法构造 POST 请求的参数和头信息，发送请求并解析返回的 JSON 数据；
数据采集与保存 ：start_crawl方法循环爬取多页数据，save_data方法将数据保存到本地 JSON 文件；
反爬优化：添加了 1 秒的请求延迟，避免因请求过快被目标网站封禁 IP。

五、进阶场景与优化方案

1. 复杂加密算法的处理

若签名采用 AES、RSA 或自定义复杂算法，直接用 Python 还原可能耗时费力，可采用两种方案：

PyExecJS/Node.js：将逆向得到的 JS 加密代码保存为单独的文件，在 Python 中调用 JS 执行环境运行该代码，直接获取签名；
逆向编译：使用 IDA Pro、Ghidra 等工具对 JS 代码进行反编译，彻底还原算法逻辑后用 Python 实现。

2. 动态 Token 的处理

若请求头中包含动态生成的 Token（如从 Cookie 或其他接口获取），需在爬虫中先请求 Token 接口，获取 Token 后再构造请求。

3. 异步优化

对于需要爬取大量数据的场景，可将同步的requests替换为异步的aiohttp，结合asyncio实现并发请求，提升爬取效率。

4. 反爬策略规避

使用代理 IP：通过代理池为每个请求分配不同的 IP，避免 IP 被封禁；推荐亿牛云隧道代理
随机化请求头：维护 User-Agent、Accept 等头信息的列表，每次请求随机选择；
模拟浏览器行为：添加 Referer、Cookie 等信息，使请求更接近真实浏览器的行为。

总结

逆向工程是 Python 爬虫处理 JS 动态请求的核心能力，其本质是还原前端与后端的通信规则。从浏览器抓包定位请求，到分析参数与加密逻辑，再到用 Python 模拟请求，整个流程需要开发者具备调试 JS 代码、分析网络请求和编写爬虫的综合能力。