webdriver 反爬虫 (selenium反爬虫) 绕过

1. webdriver 反爬虫原理

爬虫程序可以借助渲染工具从动态网页中获取数据。

在这个过程中,"借助"其实是通过对应的浏览器驱动(即WebDriver)向浏览器发出指令的行为。因此,开发者可以根据客户端是否包含浏览器驱动这一特征来区分正常用户和爬虫程序。

webdriver 属性是我们最常听到的,通过 webdriver 驱动浏览器就会包含这一属性,因此可用来辨别爬虫程序(可检测的属性远不止这一种)。

WebDriver 检测的结果有3种,分别是true、false、undefined 。当我们使用的渲染工具有webdriver 属性时,navigator.webdriver 的返回值就是 true 。反之则会返回 false 或 undefine 。

由于 Selenium 通过 WebDriver 驱动浏览器,客户端的webdriver 属性存在,所以无法获得目标数据。注:Puppeteer 根据 DevTools 协议控制 Chrome 浏览器或 Chromium 浏览器,但 Puppeteer 也存在webdriver 属性。

执行以下代码,会导致 webdriver 属性检测不通过,如下图:

复制代码
from selenium.webdriver import Chrome

driver = Chrome()
url = 'https://bot.sannysoft.com/'
driver.get(url)

2. webdriver 识别绕过:方法 1

undetected_chromedriver 是一个防止浏览器指纹特征被识别的依赖库,使用 undetected_chromedriver.Chrome() 新建浏览器窗口,从而修改浏览器指纹特征。

注:可以使用 "pip install undetected-chromedriver" 安装这个 py 库。

执行以下代码,可通过 webdriver 属性检测,如下图:

复制代码
import undetected_chromedriver as uc

driver = uc.Chrome()
url = 'https://bot.sannysoft.com/'
driver.get(url)

3. webdriver 识别绕过:方法 2

原理:通过执行 driver.execute_cdp_cmd 命令,可以在网页加载前运行 js 代码,从而改变浏览器的指纹特征

因为 webdriver 属性置空 js 代码有更改,同时最好修改不止一个属性,因此直接使用开源分享的 js 代码比较方便。

js 文件网址:https://github.com/berstend/puppeteer-extra/blob/stealth-js/stealth.min.js

stealth.min.js 这个文件包含了常用的浏览器特征,我们只需要读取文件,然后执行即可。

执行以下代码,可通过 webdriver 属性检测,如下图:

复制代码
from selenium.webdriver import Chrome

driver = Chrome()
with open('stealth.min.js', encoding='utf-8') as f:
    driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {'source': f.read()})  # 在页面刚加载的时候执行JavaScript语句
url = 'https://bot.sannysoft.com/'
driver.get(url)
相关推荐
喵手15 小时前
Python爬虫实战:HTTP缓存系统深度实战 — ETag、Last-Modified与requests-cache完全指南(附SQLite持久化存储)!
爬虫·python·爬虫实战·http缓存·etag·零基础python爬虫教学·requests-cache
喵手15 小时前
Python爬虫实战:容器化与定时调度实战 - Docker + Cron + 日志轮转 + 失败重试完整方案(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·容器化·零基础python爬虫教学·csv导出·定时调度
测试工程师成长之路17 小时前
Serenity BDD 框架:Java + Selenium 全面指南(2026 最新)
java·开发语言·selenium
may_一一17 小时前
xpath定位:selenium和playwrightAnt Design / 表单类页面)
selenium·测试工具
喵手17 小时前
Python爬虫实战:全站 Sitemap 自动发现 - 解析 sitemap.xml → 自动生成抓取队列的工业级实现!
爬虫·python·爬虫实战·零基础python爬虫教学·sitemap·解析sitemap.xml·自动生成抓取队列实现
daopuyun18 小时前
CNAS/CMA软件检测实验室源代码漏洞测试工具选型要求与比对
软件测试·测试工具·软件检测·cnas认可·cma认定
iFeng的小屋18 小时前
【2026年新版】Python根据小红书关键词爬取所有笔记数据
笔记·爬虫·python
Love Song残响19 小时前
揭秘Libvio爬虫:动态接口与逆向实战
爬虫
Wpa.wk19 小时前
接口自动化测试 - 请求构造和响应断言 -Rest-assure
开发语言·python·测试工具·接口自动化
喵手21 小时前
Python爬虫实战:构建招聘会数据采集系统 - requests+lxml 实战企业名单爬取与智能分析!
爬虫·python·爬虫实战·requests·lxml·零基础python爬虫教学·招聘会数据采集