自动化|selenium+python||通过cookies登录CSDN失败原因总结

之前用cookies登录FANS网站美美成功,但是这次登录csdn发现总是失败,总结一下原因。发现网上搜的原因都比较简单,最后还是不断自查,打印,发现问题根源,挺值得记录的。所以记录下。比较全。可以耐心看看。

一开始在网上查到的代码框架:

python 复制代码
                cookie_dict = {
                    'domain': domain,  # 必须有,不然就是假登录
                    'name': cookie.get('name'),
                    'value': cookie.get('value')
                }

初步原因自查:

1.Cookies 是否过期

最简单的自查方法,重新登录获取cookies,然后再用最新的cookies

要严格验证的话:直接看cookies.pkl看cookies的过期时间

2.域名是否完全匹配(***)

浏览器当前的域名必须与 Cookie 所属的域名完全匹配:比如,你是在 www.csdn.net 保存的 Cookie,却在 passport.csdn.net 或刚打开的空页面添加,就会失败。这个可以F12看,然后打印cookies查看一下就行。

这个点很关键,其实很大部分原因都是因为域名未完全匹配。有可能部分值匹配了,但部分不匹配。

首先自查:

保存cookies是否是在www.csdn.net但添加时停留在passport.csdn.net,就会失效

python 复制代码
            cookies = pickle.load(open("cookies.pkl", "rb"))  # 载入cookie
            for cookie in cookies:
                if 'expiry' in cookie:
                    # selenium需要的是整数类型的expiry
                    cookie['expiry'] = int(cookie['expiry'])
                try:
                    driver.add_cookie(cookie)
                except Exception as e:
                    print(f"添加cookie:{cookie.get('name')}失败:{e}")
                print('cookie_name:'+cookie.get('name'))
                print('cookie_value:'+cookie.get('value'))
                print('cookie_domain:'+cookie.get('domain'))
3.关键的cookies值是否携带

关键:userName userInfo session

自查方法:和上面一样打印出来看就行啦

4.页面加载与跳转的时机

这个是deepseek搜的,所以在refresh之前加了time.sleep()

5.隐藏自动化特征

CSDN 这类大型网站有能力检测到浏览器正受 Selenium 自动化控制,并可能因此拒绝建立有效的登录会话

上代码:

python 复制代码
chrome_options = Options()
chrome_options.add_argument('--disable-blink-features=AutomationControlled')
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
chrome_options.add_experimental_option('useAutomationExtension', False)
6.自查csdn的cookies

F12-Application-cookies自己看就行

最后发现原因:

原因一:domain去了登录页

csdn的登录体系比较复杂,访问主站www.csdn.net时,如果检测到未登录,可能会立即自动跳转去登录中心passport.csdn.net。如果是跳转之后才添加cookies,实际上是添加到登录页domain里了,所以导致domain不正确,还是没登录!

这里要确保一开始get(url)去的页面和抓的cookies去的页面是同一个域名哦!

建议就是直接url = 'https://www.csdn.net/',然后通过点击登录(而不是去搜索文章,触发登录)来登录获取cookies

原因二:domain取值写的不对,把domain写死了,而不是把正确值直接赋值。

cookies里面不同属性是不同域名的,底层框架用cookies登录的代码里,只是把cookies的domain都塞了固定值(.csdn.net),而不是灵活地把正确值(不同domain)存下来。

一开始在网上抓代码的时候,用了最简单笼统的方法获取domain:(domain本人写死了......)

python 复制代码
                # cookie_dict = {
                #     'domain': domain,  # 必须有,不然就是假登录
                #     'name': cookie.get('name'),
                #     'value': cookie.get('value')
                # }

后来打印domain的时候,发现用cookies登录后,F12看,cookies少了很多关键值,于是......开始看不同关键值的domain,发现,最关键的cookie值的domain没有塞正确。

于是改良后:

python 复制代码
        try:
            cookies = pickle.load(open("cookies.pkl", "rb"))  # 载入cookie
            for cookie in cookies:
                if 'expiry' in cookie:
                    # selenium需要的是整数类型的expiry
                    cookie['expiry'] = int(cookie['expiry'])
                # cookie_dict = {
                #     'domain': domain,  # 必须有,不然就是假登录
                #     'name': cookie.get('name'),
                #     'value': cookie.get('value')
                # }
                try:
                    driver.add_cookie(cookie)
                except Exception as e:
                    print(f"添加cookie:{cookie.get('name')}失败:{e}")
                print('cookie_name:'+cookie.get('name'))
                print('cookie_value:'+cookie.get('value'))
                print('cookie_domain:'+cookie.get('domain'))

关键点:在循环里添加cookie,无需给domain做特殊处理。

上代码:(这里只上最关键的代码,底层框架自己写哦~)

保存cookies:

python 复制代码
    def get_cookies(self, driver):
        '''登录成功后获取cookies'''
        print(driver.get_cookies())
        pickle.dump(driver.get_cookies(), open("cookies.pkl", "wb"))
        print('-----------------------获取cookies成功-----------------')

获取cookies登录:

python 复制代码
    def add_cookies(self, driver, domain):
        try:
            cookies = pickle.load(open("cookies.pkl", "rb"))  # 载入cookie
            for cookie in cookies:
                if 'expiry' in cookie:
                    # selenium需要的是整数类型的expiry
                    cookie['expiry'] = int(cookie['expiry'])
                # cookie_dict = {
                #     'domain': domain,  # 必须有,不然就是假登录
                #     'name': cookie.get('name'),
                #     'value': cookie.get('value')
                # }
                try:
                    driver.add_cookie(cookie)
                except Exception as e:
                    print(f"添加cookie:{cookie.get('name')}失败:{e}")
                print('cookie_name:'+cookie.get('name'))
                print('cookie_value:'+cookie.get('value'))
                print('cookie_domain:'+cookie.get('domain'))
            # driver.add_cookie(cookie_dict)
        except Exception as e:
            print(e)
        return driver

登录:

python 复制代码
def prestep(is_chrome_keep_opening=False):
    # global driver
    is_cookies = True
    dop = Driver_op()
    url = 'https://www.csdn.net/'
    is_chrome_keep_opening = True  # 是否关闭浏览器
    service = Service(r'D:\1pyu\pythonProject\automatic_project_csdn\resource\chromedriver.exe')

    if is_chrome_keep_opening:
        option = webdriver.ChromeOptions()
        option.add_experimental_option("detach", True)
        option.add_argument('--ignore-certificate-errors')  # 忽略连接警告信息
        option.add_argument("lang=zh_CN.UTF-8")
        option.add_argument('--disable-blink-features=AutomationControlled')
        option.add_experimental_option('excludeSwitches', ['enable-automation'])
        option.add_experimental_option('useAutomationExtension', False)
        driver = webdriver.Chrome(options=option, service=service)  # 初始化chrome驱动
    else:
        driver = webdriver.Chrome()  # 初始化chrome驱动

    driver.maximize_window()  # 最大化窗口
    driver.get(url)  # 先访问
    if is_cookies:
        time.sleep(3)
        driver = dop.add_cookies(driver, domain='.csdn.net')
        driver.get(url)  # 进入
        print('利用cookies登录成功')
        driver.refresh()
        print(driver.get_cookies())
    print('当前浏览器:' + driver.current_url)
    # global oper
    oper=Operation(driver=driver)
    return oper, driver, is_cookies
相关推荐
Urbano3 小时前
休闲束脚裤全生产工艺科普:从裁片到成衣,缝纫工序与自动化设备选型详解
运维·自动化
弗锐土豆7 小时前
自动化-程序员从抽象与具象的角度学习自动化
学习·程序员·自动化·抽象·具象
Land03299 小时前
Python + RPA 双引擎实战:从手写脚本到可交付自动化应用的完整链路
python·自动化·rpa
Mr.Daozhi10 小时前
Playwright实战:抓取Meta Ad Library动态页面的三级降级策略
爬虫·python·自动化·playwright·meta广告
大貔貅喝啤酒12 小时前
pip 国内镜像源大全【测试 / 自动化开发常备】
运维·自动化·pip·国内镜像源
易舟云财务软件12 小时前
财务 AI Python 实战:从自动化报表到智能风控的应用场景
人工智能·python·自动化
JF_Ma12 小时前
天量极客自动化技术:miniQMT系统实现量化交易自动化
运维·自动化
Mr.Daozhi12 小时前
跨境电商选品完整流水线:Google Trends筛词+Meta广告分析,CLI工具设计实战
开发语言·爬虫·python·跨境电商·工具链·选品
huangdong_13 小时前
电商平台图片防盗链机制分析与绕过方案
爬虫
AC赳赳老秦13 小时前
用 OpenClaw 整理团队技术分享:自动提取 PPT 内容、生成文字稿、同步到知识库
开发语言·python·自动化·powerpoint·wpf·deepseek·openclaw