【爬虫】某某查cookie逆向

代码仅供技术人员进行学习和研究使用,请勿将其用于非法用途或以任何方式窃取第三方数据。使用该代码产生的所有风险均由用户自行承担,作者不对用户因使用该代码而造成的任何损失或损害承担任何责任。

加密参数

加密参数主要是cookie ,其中只有三个cookie最重要,BAIDUID BAIDUID_BFESS 和一个ab开头的cookie

cookie获取

BAIDUID和BAIDUID_BFESS在访问百度系的产品时会由服务器返回,可以通过访问百度搜索引擎或者网站的首页进行获取,建议使用Session

ab开头的cookie

这个ab开头的cookie是绑定了你的UA的,所以不能用同一个cookie而使用不同的UA,UA和cookie和必须绑定

python 复制代码
    def get_cookie(self, baidu_id, user_agent):
        s = '{}AIA{}'.format(user_agent, baidu_id)
        m = hashlib.md5(s.encode())
        a = m.hexdigest()
        time_str = str(time.time()).replace('.', '')[:13]
        i = a + time_str
        JS1 = '''
                              function a () { 
                                return "ab" + ("" + +new Date((new Date).getFullYear(),(new Date).getMonth(),(new Date).getDate(),(new Date).getHours())).substring(0, 9)
                              }
                              '''
        JS2 = '''
                              function a (i) {
                                s = [i[0], i[1], i.substring(2, i.length - 2), i[i.length - 2], i[i.length - 1]]
                                o = s[0] + s[3] + s[2] + s[1] + s[4]
                                return o
                              }
                              '''
        ctx1 = execjs.compile(JS1)
        ABname = ctx1.eval('a()')

        ctx2 = execjs.compile(JS2)
        ABvaule = ctx2.call('a', i)
        return {
            'BAIDUID': baidu_id,
            str(ABname): ABvaule,
            'BAIDUID_BFESS': baidu_id,
        }

通过这个cookie的生成逻辑可以看出他的值是由UA组成的 然后进行了MD5再进行了一些移位操作。

到现在网站需要的三个cookie已经全部拿到了

JA3指纹

到这里,其实代理IP的质量高一些,已经可以进行正常的采集,但是大多数情况下会出现采集一段时间后会疯狂的出现302跳转到旋转滑块,这是因为他检测了我们的JA3指纹

JA3指纹绕过

关于JA3指纹绕过可以看一下我之前的文章
python JA3指纹绕过

最后的一些思路

1、可以为BAIDUID搭建一个cookie池

2、不知道BAIDUID是否在服务端绑定了IP,即便突破了JA3还是会出现一些验证的情况

相关推荐
爱上纯净的蓝天16 小时前
30 分钟上手 AtomCode:用它写一个 Python 批量整理文件/改名/生成报告小工具(新手教程)
python·开源·自动化脚本·atomcode·ai 编码助手
郝学胜-神的一滴16 小时前
力扣 662 :二叉树最大宽度
java·数据结构·c++·python·算法·leetcode·职场和发展
2301_7644413316 小时前
基于Stackelberg博弈的分散式库存模型
python·算法·数学建模
是Dream呀16 小时前
通道注意力机制|Channel Attention Neural Network
人工智能·python·深度学习
yaoxin52112316 小时前
430. Java 日期时间 API - 时间计算 Temporal 包
java·前端·python
RSTJ_162516 小时前
PYTHON+AI LLM DAY SEVENTY
人工智能·python·深度学习
财经资讯数据_灵砚智能16 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月8日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
m沐沐16 小时前
数据集的六种填充方法——下(使用众数填充+使用逻辑回归填充+使用随机森林填充)
python·随机森林·机器学习·pycharm·逻辑回归
TonyLee01716 小时前
AutoDL租卡记录
服务器·python
m沐沐16 小时前
【机器学习】7 种分类模型实战(逻辑回归→随机森林→SVM→AdaBoost→朴素贝叶斯→XGBoost→神经网络)
人工智能·pytorch·python·随机森林·机器学习·分类·逻辑回归