使用Fiddler抓包工具获取微信公众号数据的完整教程

前言

今天来教大家如何使用Fiddler抓包工具,获取公众号(PC客户端)的数据。

Fiddler是位于客户端和服务器端的HTTP代理,是目前最常用的http抓包工具之一。

此外,Sniffmaster作为一款全平台抓包工具,支持HTTPS、TCP和UDP协议,可在iOS、Android、Mac、Windows设备上实现无需代理、越狱或root的抓包操作,提供强大的抓包功能。

开发环境

  • python 3.8 运行代码
  • pycharm 2021.2 辅助敲代码
  • requests 第三方模块
  • Fiddler 汉化版 抓包的工具
  • 微信PC端

如何抓包

配置Fiddler环境

先打开Fiddler,选择 工具 ,再选 选项
选项窗口 里点击 HTTPS,把勾选框都勾选上

捕获HTTPS流量 解密HTTPS流量 忽略服务器证书错误 检查证书吊销

选项窗口 里点击 链接,把勾选框都勾选上,然后点击确定即可
我们还需要在客户端把网络代理开启

地址:127.0.0.1

端口:8888

抓包

先登录,然后清空Fiddler里的数据,在选到你想要的公众号内容
出现数据包后,点开,再选择Raw,里面的就是请求的具体信息

先访问到列表页,获取所有的详情页链接

请求头

arduino 复制代码
headers = {
    'Host': 'mp.weixin.qq.com',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36 NetType/WIFI MicroMessenger/7.0.20.1781(0x6700143B) WindowsWechat(0x63090016)',
    'X-Requested-With': 'XMLHttpRequest',
    'Accept': '*/*',
    'Cookie': 'wxuin=2408215323; lang=zh_CN; devicetype=android-29; version=28002037; pass_ticket=f85UL5Wi11mqpsvuWgLUECYkDoL2apJ045mJw9lzhCjUteAxd4jM8PtaJCM0nBXrQEGU9D7ulLGrXpSummoA==; wap_sid2=CJvmqfwIEooBeV9IR29XUTB2eERtakNSbzVvSkhaRHdMak9UMS1LRmg4TGlaMjhjbTkwcks1Q2E2bWZ1cndhUmdITUZUZ0pwU2VJcU51ZWRDLWpZbml2VkF5WkhaU0NNaDQyQ1RDVS1GZ05mellFR0R5UVY2X215bXZhUUV0NVlJMVRPbXFfZGQ1ZnVvMFNBQUF+MPz0/50GOA1AlU4=',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Dest': 'empty',
    'Referer': 'https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=Mzg3Nzc2OTQzOA==&uin=MjQwODIxNTMyMw%3D%3D&key=2ed1dc903dceac3d9a380beec8d46a84995a555d7c7eb7b793a3cc4c0d32bc588e1b6df9da9fa1a258cb0db4251dd36eda6029ad4831c4d57f6033928bb9c64c12b8e759cf0649f65e4ef30753ff3092a2a4146a008df311c110d0b6f867ab173792368baa9aaf28a514230946431480cc6b171071a9f9a1cd52f7c07a751925&devicetype=Windows+10+x64&version=63090016&lang=zh_CN&a8scene=7&session_us=gh_676b5a39fe6e&acctmode=0&pass_ticket=f85UL5Wi11%2BmqpsvuW%2BgLUECYkDoL2apJ045mJw9lzhCjUteAxd4jM8PtaJCM0nBXrQEGU9D7ulLGrXpSummoA%3D%3D&wx_header=1&fontgear=2',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
}

发送请求

ini 复制代码
url = f'https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=Mzg3Nzc2OTQzOA==&f=json&offset=10&count=10&is_ok=1&scene=&uin=MjQwODIxNTMyMw%3D%3D&key=3e8646dd303f109219f39517773e368d92e1975e6972ccf5d1479758d37ecec3e55bc3cb1bb5606d79ec76073ab58e4019ee720c31c2b36fafa9fe891e7afb1e22809e5db3cd8890ab35a570ffb680d16617ac3049d6627e61ffdf3305e4575666e30ad80a57b14555aa6c5a3a0fb0001a6d5d2cd76fd8af116a086ce9ef2c8e&pass_ticket=f85UL5Wi11%2BmqpsvuW%2BgLUECYkDoL2apJ045mJw9lzjmzvDbqI6V6Y%2FkXeYCZ7WsuMSqko7EWesSKLrDKnJ96A%3D%3D&wxtoken=&appmsg_token=1200_VUCOfHI2jYSEziPbaYFlHoaB7977BJYsAb5cvQ~~&x5=0&f=json'
response = requests.get(url=url, headers=headers, verify=False)

解析

ini 复制代码
general_msg = response.json()['general_msg_list']
general_msg_list = json.loads(general_msg)
for general in general_msg_list['list']:
    content_url = general['app_msg_ext_info']['content_url']
    print(content_url)

再访问所有详情页链接,获取需要的图片内容

发送请求

ini 复制代码
html_data = requests.get(url=content_url, headers=headers, verify=False).text

解析数据

ini 复制代码
img_list = re.findall('<img class=".*?data-src="(.*?)"', html_data)
print(img_list)

保存数据

css 复制代码
for img in img_list:
    img_data = requests.get(url=img, verify=False).content
    open(f'img/{index}.jpg', mode='wb').write(img_data)
    index += 1
相关推荐
迷渡12 分钟前
聊一聊 Bun 用 Rust 重写这件事
开发语言·后端·rust
王中阳Go15 分钟前
秒杀、分库分表、全链路追踪:一个电商微服务的架构全拆解
后端·go
正儿八经的少年22 分钟前
Spring Boot 两种激活配置方式的作用与区别
java·spring boot·后端
回家路上绕了弯43 分钟前
AgentScope Java实战博客:从入门到落地,解锁智能代理开发新范式
后端
疯狂成瘾者1 小时前
Spring Boot 项目中的 SMTP 邮件验证码服务技术解析
java·spring boot·后端
阿苟1 小时前
消息队列重点详解
后端·面试
RustCoder1 小时前
MangoFetch:一个用 Rust 写的 CLI/TUI 高性能的下载工具
后端·rust·开源
程序员清风1 小时前
AI开发岗该如何准备面试?
java·后端·面试
折哥的程序人生 · 物流技术专研1 小时前
《Java 100 天进阶之路》第20篇:Java初始化、构造器、对象创建的过程
java·开发语言·后端·面试
Lee川2 小时前
从输入框到智能匹配:一文读懂搜索功能的完整实现
前端·后端