爬虫逆向学习(六):补环境过某数四代

声明:本篇文章内容是整理并分享在学习网上各位大佬的优秀知识后的实战与踩坑记录

引用博客:

https://blog.csdn.net/shayuchaor/article/details/103629294

https://blog.csdn.net/qq_36291294/article/details/128600583

https://blog.csdn.net/weixin_58584029/article/details/125286386

https://blog.csdn.net/randy521520/article/details/135304045

https://blog.csdn.net/weixin_44862184/article/details/125302589

前言

某数的反爬机制和大致的破解流程已经是被摸透了,某数小白可以根据上面提供的引用博客从上往下逐一阅读,相信看完能让你对它有个整体的了解。下文是在博客爬虫瑞数4案例:网上房地产下进行实战讲解的,本身作者已经讲解的很到位了,在这我就不献丑了。只是在使用作者最后提供的代码调试了很久才通过,便再次记录下踩坑过程,希望对大家有所帮助。

实战

目标网址:aHR0cDovL3d3dy5mYW5nZGkuY29tLmNuL29sZF9ob3VzZS9vbGRfaG91c2UuaHRtbA==

在无痕模式下打开浏览器,开启开发者模式,然后在源代码/来源那开启脚本调试,如下图:

前奏设置好后直接打开网址,它会在外链js中断住

这时看一下cookie,然后F8或者点击继续执行按钮,让调试继续执行下去

这是就拿到自执行函数了,这里就大概重复下作者的讲解

之所以讲解这一个其实还有一个目的,就是有些人会对最终生成的cookie长度217有所怀疑,这里说一下某数能增加最终cookie长度的其实还有两个地方

但是它并不是一定需要执行这两个地方,这里我们在_$Du('aEAA');下断点,让程序执行到这一步

然后再看一下cookie,发现这时已经生成了目标cookie值,我们拿这个cookie去发包请求发现是能拿到数据的,也就是说按作者的代码最终生成的cookie长度为217也是能拿到数据的,至少对于这个网址来说。

踩坑

外链js引入执行报错:SyntaxError: Unexpected token ')'

一开始按作者讲解的,把调试拿到的ts代码直接copy到文件中执行是没问题的,但是后面我直接保存外链链接的内容时便出现问题了,由此操作是我想使用require的方式引入外链js代码require('./c.FxJzG50F.dfe1675');

这里给大家看看两种格式差异:

调试拿到的外链js:

源码拿到的外链js:

最后还是直接使用调试拿到js就没问题了

编码异常

外链js的编码是ISO-8859-1,直接本地运行会报'gbk' codec can't decode byte 0x80 in position 41: illegal multibyte sequence,这时需要设置本地编码环境,如下设置就能成功了。

运行结果

我这边最终使用作者提供的代码是可以运行成功的,下面附上我的代码截图

fdc.py

fdc.js

相关推荐
WeeJot嵌入式12 小时前
爬虫对抗:ZLibrary反爬机制实战分析
爬虫·python·网络安全·playwright·反爬机制
进击的雷神13 小时前
攻克JSON嵌套HTML的双重解析难题:基于多层数据提取的精准爬虫设计
爬虫·html·json·spiderflow
前端小趴菜~时倾13 小时前
自我提升-python爬虫学习:day05-函数与面向对象编程
爬虫·python·学习
进击的雷神13 小时前
攻克JSON接口分页与对象数组处理:基于AJAX数据源的精准博客爬虫设计
爬虫·ajax·json·spiderflow
vx_biyesheji000116 小时前
计算机毕业设计:Python汽车数据分析系统 Django框架 requests爬虫 可视化 车辆 数据分析 大数据 机器学习(建议收藏)✅
爬虫·python·算法·机器学习·django·汽车·课程设计
小白学大数据17 小时前
效率翻倍:Scrapy-Redis 分布式全站爬虫并发优化进阶
redis·分布式·爬虫·scrapy
tang777891 天前
小红书平台用什么代理 IP 比较好?2026年3月实测数据 + 选型推荐
网络·爬虫·python·网络协议·tcp/ip·数据挖掘·ip
进击的雷神1 天前
突破POST分页与IP封锁:基于表单提交和代理转发的新闻爬虫设计
爬虫·网络协议·tcp/ip
小邓睡不饱耶2 天前
东方财富股吧话题爬虫实现:从接口请求到Excel数据落地
爬虫·excel
进击的雷神2 天前
攻克动态列表页结构:基于ID与URL双字段协同提取的精准爬虫设计
爬虫·spiderflow