浏览器自动化检测对抗:修改navigator.webdriver属性的底层实现


一、背景介绍:你被自动化检测拒之门外了吗?

在使用 Selenium 或 Playwright 等浏览器自动化工具爬取数据时,经常会遇到「被检测」问题,尤其像 Amazon 这样反爬策略严密的网站。常见的检测机制之一就是检查 JavaScript 中的 navigator.webdriver 属性:

javascript 复制代码
console.log(navigator.webdriver); // true:表明是自动化工具

因此,本文将带你深入了解如何在浏览器中底层修改该属性,并结合代理、Cookie、User-Agent 技术,实现一个能顺利爬取 Amazon 网站商品信息的反检测爬虫。


二、环境准备

1. 安装依赖

bash 复制代码
pip install undetected-chromedriver selenium requests

我们使用 undetected-chromedriver 代替原生 Selenium 驱动,内置多种反检测机制,更适合应对大型网站的反爬。

2. 爬虫代理信息(请替换为你的真实账户信息)

python 复制代码
# 配置代理 亿牛云爬虫代理 www.16yun.cn
proxy_host = "proxy.16yun.cn"
proxy_port = "8010"
proxy_user = "16YUN"
proxy_pass = "16IP"

三、核心步骤

✅ 第一步:配置无痕浏览器并隐藏 webdriver

python 复制代码
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

def create_stealth_driver(proxy_host, proxy_port, proxy_user, proxy_pass, user_agent, cookies):
    options = Options()
    options.add_argument(f"user-agent={user_agent}")
    options.add_argument("--disable-blink-features=AutomationControlled")
    
    # 配置爬虫代理
    options.add_argument(f'--proxy-server=http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}')
    
    # 启动无头浏览器(也可以关闭无头方便调试)
    # options.add_argument('--headless')
    
    # 创建驱动
    import undetected_chromedriver as uc
    driver = uc.Chrome(options=options)
    
    # 修改 webdriver 属性(核心)
    driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
    
    # 设置 cookie
    driver.get("https://www.amazon.com")
    for cookie in cookies:
        driver.add_cookie(cookie)
    
    return driver

✅ 第二步:模拟搜索关键词并采集信息

python 复制代码
def scrape_amazon(keyword):
    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    cookies = []  # 可以从浏览器复制一组,也可通过登录获取
    
    driver = create_stealth_driver(proxy_host, proxy_port, proxy_user, proxy_pass, user_agent, cookies)
    
    driver.get(f"https://www.amazon.com/s?k={keyword}")
    time.sleep(3)
    
    products = driver.find_elements(By.XPATH, "//div[@data-component-type='s-search-result']")
    
    for product in products[:10]:  # 只取前10条数据举例
        try:
            title = product.find_element(By.TAG_NAME, "h2").text
            price_whole = product.find_element(By.CLASS_NAME, "a-price-whole").text
            price_frac = product.find_element(By.CLASS_NAME, "a-price-fraction").text
            price = f"{price_whole}.{price_frac}"
            reviews = product.find_element(By.XPATH, ".//span[@class='a-size-base']").text
            
            print(f"名称: {title}")
            print(f"价格: ${price}")
            print(f"评论: {reviews}")
            print("=" * 30)
        except Exception as e:
            continue

    driver.quit()

四、完整代码汇总

python 复制代码
# 请整合以上两个函数并在此调用
if __name__ == "__main__":
    keyword = "wireless earbuds"
    scrape_amazon(keyword)

五、常见错误分析

错误提示 原因 解决方案
selenium.common.exceptions.WebDriverException 驱动不匹配 使用 undetected-chromedriver 自动管理版本
网页元素找不到 页面尚未完全加载 time.sleep() 或 WebDriverWait
显示"访问过于频繁" IP 被封 更换代理 IP,使用优质高匿代理
无法设置 Cookie 页面未打开或未加载完成 先访问目标页面,再添加 Cookie

六、总结与提升

本文以 Amazon 网站为例,讲解了如何通过底层 JS 技巧对抗自动化检测,关键点在于:

  • 使用 undetected-chromedriver 替代传统 Selenium;
  • 修改 navigator.webdriver 属性隐藏自动化痕迹;
  • 配合代理、User-Agent 和 Cookie 构建可信环境;
  • 页面加载等待 + XPath 精准提取实现结构化采集。
相关推荐
zm-v-1593043398610 分钟前
ChatGPT-4o:临床医学科研与工作的创新引擎
人工智能·python·医学
学地理的小胖砸28 分钟前
【Python 模块】
开发语言·python
jie188945758661 小时前
python--------修改桌面文件内容
java·数据库·python
一起喝芬达20102 小时前
【Agent】使用 Python 结合 OpenAI 的 API 实现一个支持 Function Call 的程序,修改本机的 txt 文件
windows·python·microsoft
一个天蝎座 白勺 程序猿2 小时前
Python爬虫(20)Python爬虫数据存储技巧:二进制格式(Pickle/Parquet)性能优化实战
开发语言·爬虫·python
灏瀚星空2 小时前
深度学习之LSTM时序预测入门指南:从原理到实战
人工智能·python·深度学习·神经网络·机器学习·数学建模·lstm
碳酸的唐2 小时前
用python实现鼠标监听与手势交互
python·动态规划·图论
仰望星空的凡人2 小时前
【JS逆向基础】并发爬虫
javascript·python
LiLiYuan.4 小时前
关于Stream
java·开发语言·windows·python
Green1Leaves4 小时前
从零开始学习人工智能(Python高级教程)Day6-Python3 正则表达式
python·学习·正则表达式