之前一个任务让用selenium爬取制定网站的一些数据,写了代码,在本机上写完后,移植到服务器上,然后在服务器上跑了两次发现,元素找不到了
Unable to locate element: {"method":"xpath","selector":"
然后由于服务器没有图形化界面,不能一步一步的调试,后来使用
python
driver.get("https://www.baidu.com/")
# 等待页面加载
time.sleep(10)
html = driver.page_source
# 将页面源代码写入到本地文件
with open("百度.html", "w", encoding="utf-8") as file:
file.write(html)
将界面下载下来,发现,呕吼,IP被封了,被封了,封了,了......
然后换了台服务器,然后为了防止再次被封,加入了
python
options.add_argument(f"x-user-uuid={uuid.uuid4()}")
# 添加随机User-Agent,模拟不同的浏览器和设备,减少被网站识别为爬虫
user_agent = ua.random
options.add_argument(f'--user-agent={user_agent}')
然后,运行了一次,完美解决!(其实是又产生了新的问题QAQ)
过了两周,查看日志发现,裂开了,又不好使了,然后,我重新运行了一遍,想找找问题,结果他又好使了。我真的裂开,裂开了啊,再然后下载页面,发现他会出现两种页面,并且页面源代码完全不同??????怀疑人生
后来花了好久好久的时间,终于找到了问题,问题就出在:
python
# 添加随机User-Agent,模拟不同的浏览器和设备,减少被网站识别为爬虫
user_agent = ua.random
options.add_argument(f'--user-agent={user_agent}')
他会随机模拟出手机标识,即让网站发送手机浏览器适应的页面
所以最终解决办法,修改这段代码:
python
ua = UserAgent()
# 定义一个函数来生成随机的桌面 User-Agent
def get_random_desktop_user_agent():
desktop_browsers = ['Chrome', 'Firefox', 'Edge', 'Safari']
browser = random.choice(desktop_browsers)
return ua[browser]
# 生成随机的桌面 User-Agent
user_agent = get_random_desktop_user_agent()
options.add_argument(f'--user-agent={user_agent}')