之前用cookies登录FANS网站美美成功,但是这次登录csdn发现总是失败,总结一下原因。发现网上搜的原因都比较简单,最后还是不断自查,打印,发现问题根源,挺值得记录的。所以记录下。比较全。可以耐心看看。
一开始在网上查到的代码框架:
python
cookie_dict = {
'domain': domain, # 必须有,不然就是假登录
'name': cookie.get('name'),
'value': cookie.get('value')
}
初步原因自查:
1.Cookies 是否过期
最简单的自查方法,重新登录获取cookies,然后再用最新的cookies
要严格验证的话:直接看cookies.pkl看cookies的过期时间
2.域名是否完全匹配(***)
浏览器当前的域名必须与 Cookie 所属的域名完全匹配:比如,你是在 www.csdn.net 保存的 Cookie,却在 passport.csdn.net 或刚打开的空页面添加,就会失败。这个可以F12看,然后打印cookies查看一下就行。
这个点很关键,其实很大部分原因都是因为域名未完全匹配。有可能部分值匹配了,但部分不匹配。
首先自查:
保存cookies是否是在www.csdn.net,但添加时停留在passport.csdn.net,就会失效
python
cookies = pickle.load(open("cookies.pkl", "rb")) # 载入cookie
for cookie in cookies:
if 'expiry' in cookie:
# selenium需要的是整数类型的expiry
cookie['expiry'] = int(cookie['expiry'])
try:
driver.add_cookie(cookie)
except Exception as e:
print(f"添加cookie:{cookie.get('name')}失败:{e}")
print('cookie_name:'+cookie.get('name'))
print('cookie_value:'+cookie.get('value'))
print('cookie_domain:'+cookie.get('domain'))

3.关键的cookies值是否携带
关键:userName userInfo session
自查方法:和上面一样打印出来看就行啦

4.页面加载与跳转的时机
这个是deepseek搜的,所以在refresh之前加了time.sleep()
5.隐藏自动化特征
CSDN 这类大型网站有能力检测到浏览器正受 Selenium 自动化控制,并可能因此拒绝建立有效的登录会话
上代码:
python
chrome_options = Options()
chrome_options.add_argument('--disable-blink-features=AutomationControlled')
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
chrome_options.add_experimental_option('useAutomationExtension', False)
6.自查csdn的cookies
F12-Application-cookies自己看就行

最后发现原因:
原因一:domain去了登录页
csdn的登录体系比较复杂,访问主站www.csdn.net时,如果检测到未登录,可能会立即自动跳转去登录中心passport.csdn.net。如果是跳转之后才添加cookies,实际上是添加到登录页domain里了,所以导致domain不正确,还是没登录!
这里要确保一开始get(url)去的页面和抓的cookies去的页面是同一个域名哦!
建议就是直接url = 'https://www.csdn.net/',然后通过点击登录(而不是去搜索文章,触发登录)来登录获取cookies
原因二:domain取值写的不对,把domain写死了,而不是把正确值直接赋值。
cookies里面不同属性是不同域名的,底层框架用cookies登录的代码里,只是把cookies的domain都塞了固定值(.csdn.net),而不是灵活地把正确值(不同domain)存下来。
一开始在网上抓代码的时候,用了最简单笼统的方法获取domain:(domain本人写死了......)
python
# cookie_dict = {
# 'domain': domain, # 必须有,不然就是假登录
# 'name': cookie.get('name'),
# 'value': cookie.get('value')
# }
后来打印domain的时候,发现用cookies登录后,F12看,cookies少了很多关键值,于是......开始看不同关键值的domain,发现,最关键的cookie值的domain没有塞正确。
于是改良后:
python
try:
cookies = pickle.load(open("cookies.pkl", "rb")) # 载入cookie
for cookie in cookies:
if 'expiry' in cookie:
# selenium需要的是整数类型的expiry
cookie['expiry'] = int(cookie['expiry'])
# cookie_dict = {
# 'domain': domain, # 必须有,不然就是假登录
# 'name': cookie.get('name'),
# 'value': cookie.get('value')
# }
try:
driver.add_cookie(cookie)
except Exception as e:
print(f"添加cookie:{cookie.get('name')}失败:{e}")
print('cookie_name:'+cookie.get('name'))
print('cookie_value:'+cookie.get('value'))
print('cookie_domain:'+cookie.get('domain'))
关键点:在循环里添加cookie,无需给domain做特殊处理。
上代码:(这里只上最关键的代码,底层框架自己写哦~)
保存cookies:
python
def get_cookies(self, driver):
'''登录成功后获取cookies'''
print(driver.get_cookies())
pickle.dump(driver.get_cookies(), open("cookies.pkl", "wb"))
print('-----------------------获取cookies成功-----------------')
获取cookies登录:
python
def add_cookies(self, driver, domain):
try:
cookies = pickle.load(open("cookies.pkl", "rb")) # 载入cookie
for cookie in cookies:
if 'expiry' in cookie:
# selenium需要的是整数类型的expiry
cookie['expiry'] = int(cookie['expiry'])
# cookie_dict = {
# 'domain': domain, # 必须有,不然就是假登录
# 'name': cookie.get('name'),
# 'value': cookie.get('value')
# }
try:
driver.add_cookie(cookie)
except Exception as e:
print(f"添加cookie:{cookie.get('name')}失败:{e}")
print('cookie_name:'+cookie.get('name'))
print('cookie_value:'+cookie.get('value'))
print('cookie_domain:'+cookie.get('domain'))
# driver.add_cookie(cookie_dict)
except Exception as e:
print(e)
return driver
登录:
python
def prestep(is_chrome_keep_opening=False):
# global driver
is_cookies = True
dop = Driver_op()
url = 'https://www.csdn.net/'
is_chrome_keep_opening = True # 是否关闭浏览器
service = Service(r'D:\1pyu\pythonProject\automatic_project_csdn\resource\chromedriver.exe')
if is_chrome_keep_opening:
option = webdriver.ChromeOptions()
option.add_experimental_option("detach", True)
option.add_argument('--ignore-certificate-errors') # 忽略连接警告信息
option.add_argument("lang=zh_CN.UTF-8")
option.add_argument('--disable-blink-features=AutomationControlled')
option.add_experimental_option('excludeSwitches', ['enable-automation'])
option.add_experimental_option('useAutomationExtension', False)
driver = webdriver.Chrome(options=option, service=service) # 初始化chrome驱动
else:
driver = webdriver.Chrome() # 初始化chrome驱动
driver.maximize_window() # 最大化窗口
driver.get(url) # 先访问
if is_cookies:
time.sleep(3)
driver = dop.add_cookies(driver, domain='.csdn.net')
driver.get(url) # 进入
print('利用cookies登录成功')
driver.refresh()
print(driver.get_cookies())
print('当前浏览器:' + driver.current_url)
# global oper
oper=Operation(driver=driver)
return oper, driver, is_cookies