Python从入门到精通day66

使用Selenium抓取网页动态内容

根据权威互联网可访问性审计报告显示，全球约四分之三的网站内容均通过JavaScript动态渲染生成。这意味着我们通过浏览器"查看网页源代码"获取的静态HTML中，无法读取到这部分动态内容，此前基于静态源码的爬虫方案会直接失效。

目前解决动态页面爬取主要有两种主流方案：第一种是抓包获取后端数据接口，该方案适配网页、手机App等各类场景，可通过浏览器开发者工具或专业抓包工具（Charles、Fiddler、Wireshark等）实现，用法与之前360图片接口爬取案例一致，本文不再赘述；第二种是借助自动化测试工具Selenium，驱动浏览器完整渲染页面，直接获取加载后的动态内容。本章将重点讲解Selenium动态爬虫的完整使用方法。

Selenium 介绍

Selenium是一款开源的浏览器自动化测试工具，核心能力是驱动主流浏览器模拟真实用户操作，自动完成页面加载、元素交互等行为。对于爬虫开发而言，Selenium最大的优势是：凡是浏览器可视的页面内容，均可通过Selenium精准获取，完美适配JavaScript动态渲染、异步加载的网页场景，是动态爬虫的核心工具。

本文以Chrome浏览器为例讲解Selenium的完整用法。使用前需提前安装Chrome浏览器，并下载对应版本的浏览器驱动ChromeDriver。驱动下载可前往ChromeDriver官方下载地址，驱动版本必须与本地Chrome浏览器版本匹配，无完全一致版本时，选择版本号最接近的适配版本即可。

Selenium 环境搭建与基础使用

安装Selenium库

通过pip命令一键安装Selenium第三方库，命令如下：

复制代码

pip install selenium

基础用法：加载网页

安装完成后，可通过简单代码驱动Chrome浏览器自动打开指定网页，示例以百度首页为例：

复制代码

from selenium import webdriver

# 创建Chrome浏览器实例对象
browser = webdriver.Chrome()
# 加载并打开指定URL页面
browser.get('https://www.baidu.com/')

Selenium支持Firefox、Safari等主流浏览器，只需替换对应浏览器实例对象即可，代码逻辑完全通用。

驱动报错解决方案

初次运行代码大概率会出现以下报错，核心原因是系统无法找到ChromeDriver驱动文件：

复制代码

selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home

这里提供三种稳定的解决方案，按需选择即可：

1. 全局环境变量配置（推荐）：将ChromeDriver驱动文件放入Python解释器同级目录，该目录已默认加入系统PATH环境变量，系统可自动识别驱动。
1. 虚拟环境配置 ：将驱动文件放入项目虚拟环境的bin目录（Windows系统为Scripts目录），适配当前项目独立环境，避免版本冲突。
1. 代码手动指定驱动路径 ：通过service参数手动绑定驱动文件路径，适配所有环境，代码兼容性最强：
from selenium import webdriver
from selenium.webdriver.chrome.service import Service

手动指定ChromeDriver驱动路径

browser = webdriver.Chrome(service=Service(executable_path='venv/bin/chromedriver'))
browser.get('https://www.baidu.com/')

查找页面元素与模拟用户行为

页面加载完成后，可通过Selenium提供的方法定位页面元素，并模拟人工输入、点击等用户操作，完美复刻真实浏览行为。

核心方法分为两类：find\_element\(\)获取单个页面元素，返回WebElement对象；find\_elements\(\)获取一组同类元素，返回列表。Selenium支持ID、CSS选择器、XPath、标签名、类名等主流元素定位方式。

获取元素后，可通过send\_keys\(\)模拟输入、click\(\)模拟点击，完整示例如下（模拟百度搜索Python）：

复制代码

from selenium import webdriver
from selenium.webdriver.common.by import By

# 初始化浏览器并打开百度
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')

# 通过ID定位搜索输入框，模拟输入关键词
kw_input = browser.find_element(By.ID, 'kw')
kw_input.send_keys('Python')

# 通过CSS选择器定位搜索按钮，模拟点击操作
su_button = browser.find_element(By.CSS_SELECTOR, '#su')
su_button.click()

除基础操作外，Selenium还支持拖拽、悬浮、键盘组合键等复杂操作，可通过ActionChains类实现，大家可自行拓展学习。

隐式等待与显式等待

动态网页的元素加载存在延迟，若代码执行速度快于页面渲染速度，会触发NoSuchElementException元素找不到异常。为解决该问题，Selenium提供两种等待机制，适配不同场景。

隐式等待：全局生效，设置最大等待时长，在指定时间内持续轮询查找元素，超时则报错，适用于简单场景。

显式等待：针对性等待指定元素满足特定条件，灵活性更高、稳定性更强，是动态爬虫的首选方案。

完整综合示例（包含等待、窗口设置、页面截屏）：

复制代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait

# 初始化浏览器并设置窗口大小
browser = webdriver.Chrome()
browser.set_window_size(1200, 800)
browser.get('https://www.baidu.com/')

# 设置全局隐式等待：最大等待10秒
browser.implicitly_wait(10)

# 执行搜索操作
kw_input = browser.find_element(By.ID, 'kw')
kw_input.send_keys('Python')
su_button = browser.find_element(By.CSS_SELECTOR, '#su')
su_button.click()

# 创建显式等待对象，最大等待10秒
wait_obj = WebDriverWait(browser, 10)
# 等待搜索结果模块加载完成
wait_obj.until(
    expected_conditions.presence_of_element_located(
        (By.CSS_SELECTOR, '#content_left')
    )
)

# 页面截屏保存
browser.get_screenshot_as_file('python_result.png')

常用等待条件汇总表，可直接按需调用：

等待条件	具体含义
`title_is / title_contains`	页面标题等于指定内容 / 标题包含指定内容
`visibility_of`	元素处于可见状态
`presence_of_element_located`	目标元素加载完成并存在于页面
`visibility_of_element_located`	定位元素加载完成且可见
`invisibility_of_element_located`	定位元素隐藏、不可见
`presence_of_all_elements_located`	页面所有目标元素全部加载完成
`text_to_be_present_in_element`	元素文本包含指定内容
`text_to_be_present_in_element_value`	元素value属性包含指定内容
`frame_to_be_available_and_switch_to_it`	iframe框架加载完成并自动切换
`element_to_be_clickable`	元素加载完成且可点击
`element_to_be_selected`	元素处于选中状态
`element_located_to_be_selected`	定位后的元素处于选中状态
`alert_is_present`	页面弹出Alert弹窗

执行JavaScript代码

针对瀑布流、滚动加载等需要滑动页面加载更多内容的场景，可通过Selenium的execute_script方法执行原生JS代码，模拟页面滚动、元素操作等行为，适配复杂动态页面。

常用场景：页面滚动至底部加载全部内容，代码可直接嵌入上述案例中使用：

复制代码

# 执行JS代码，将页面滚动至最底部
browser.execute_script('document.documentElement.scrollTop = document.documentElement.scrollHeight')

复杂动态爬虫常依赖JS操作，建议简单了解BOM、DOM基础语法，可大幅提升爬虫适配能力。

Selenium反爬破解方案

多数网站具备Selenium反爬检测机制：自动化驱动的浏览器会默认标记webdriver=true，网站可通过该参数识别爬虫并拦截访问。同时浏览器顶部会显示"正受到自动测试软件的控制"提示，暴露爬虫身份。

以下是完整的反爬绕过方案，可隐藏自动化特征，模拟真实浏览器环境：

复制代码

from selenium import webdriver

# 配置Chrome浏览器参数，隐藏自动化特征
options = webdriver.ChromeOptions()
# 关闭自动化测试提示
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 禁用自动化扩展
options.add_experimental_option('useAutomationExtension', False)

# 初始化浏览器对象
browser = webdriver.Chrome(options=options)

# 注入JS代码，修改webdriver检测参数，绕过网站反爬
browser.execute_cdp_cmd(
    'Page.addScriptToEvaluateOnNewDocument',
    {'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'}
)

# 常规页面操作
browser.set_window_size(1200, 800)
browser.get('https://www.baidu.com/')

无头浏览器模式

爬虫部署运行时，无需可视化浏览器窗口，可开启无头模式，隐藏浏览器界面、降低资源占用、提升爬取效率，适合服务器后台运行脚本。

复制代码

from selenium import webdriver

options = webdriver.ChromeOptions()
# 开启无头浏览器模式
options.add_argument('--headless')
# 初始化无界面浏览器
browser = webdriver.Chrome(options=options)
browser.get('https://www.baidu.com/')

Selenium 常用API参考

Selenium功能丰富，本文仅讲解核心用法，更多细节可查阅Selenium Python中文官方文档。以下整理高频使用的浏览器对象与WebElement对象属性、方法。

一、浏览器对象常用属性

属性名	描述
`current_url`	获取当前页面的完整URL
`current_window_handle`	获取当前浏览器窗口句柄
`name`	获取当前浏览器名称
`page_source`	获取包含动态渲染内容的完整页面源码
`title`	获取当前页面标题
`window_handles`	获取浏览器所有打开窗口的句柄列表

二、浏览器对象常用方法

方法名	描述
`back / forward`	浏览器页面后退 / 前进
`close / quit`	关闭当前窗口 / 退出整个浏览器实例
`get`	加载并打开指定URL页面
`maximize_window`	浏览器窗口最大化
`refresh`	刷新当前页面
`set_page_load_timeout`	设置页面加载超时时间
`implicitly_wait`	设置全局隐式等待时间
`get_cookie/ get_cookies`	获取单个Cookie / 全部Cookie
`add_cookie`	手动添加Cookie信息
`delete_cookie/ delete_all_cookies`	删除指定Cookie / 清空全部Cookie
`find_element / find_elements`	查找单个元素 / 批量查找元素

三、WebElement元素对象常用属性

属性名	描述
`location`	获取元素在页面中的坐标位置
`size`	获取元素的宽高尺寸
`text`	获取元素的文本内容
`id`	获取元素的ID属性值
`tag\_name`	获取元素的标签名

四、WebElement元素对象常用方法

方法名	描述
`clear`	清空输入框、文本域内容
`click`	点击目标元素
`get_attribute`	获取元素指定属性的值
`is_displayed`	判断元素是否可见
`is_enabled`	判断元素是否可操作
`is_selected`	判断单选框/复选框是否选中
`send_keys`	模拟输入文本、按键
`submit`	提交表单
`value_of_css_property`	获取元素指定CSS样式属性
`find_element / find_elements`	查找当前元素下的子元素
`screenshot`	对当前元素单独截屏

综合实战案例：动态图片批量爬取

本案例结合Selenium动态加载、页面滚动、多线程下载，实现360图片网站关键词图片批量爬取，完整复刻工业级爬虫基础逻辑：

复制代码

import os
import time
from concurrent.futures import ThreadPoolExecutor

import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 图片保存目录
DOWNLOAD_PATH = 'images/'


def download_picture(picture_url: str):
    """
    下载并保存图片
    :param picture_url: 图片远程链接
    """
    # 截取图片文件名
    filename = picture_url[picture_url.rfind('/') + 1:]
    # 请求图片资源
    resp = requests.get(picture_url)
    # 二进制写入保存图片
    with open(os.path.join(DOWNLOAD_PATH, filename), 'wb') as file:
        file.write(resp.content)


if __name__ == '__main__':
    # 创建保存目录
    if not os.path.exists(DOWNLOAD_PATH):
        os.makedirs(DOWNLOAD_PATH)
    
    # 初始化浏览器并打开360图片
    browser = webdriver.Chrome()
    browser.get('https://image.so.com/z?ch=beauty')
    browser.implicitly_wait(10)

    # 定位搜索框，输入关键词并回车搜索
    kw_input = browser.find_element(By.CSS_SELECTOR, 'input[name=q]')
    kw_input.send_keys('风景')
    kw_input.send_keys(Keys.ENTER)

    # 循环滚动页面，加载更多动态图片
    for _ in range(10):
        browser.execute_script(
            'document.documentElement.scrollTop = document.documentElement.scrollHeight'
        )
        time.sleep(1)

    # 批量获取所有图片元素
    imgs = browser.find_elements(By.CSS_SELECTOR, 'div.waterfall img')

    # 多线程批量下载图片，提升效率
    with ThreadPoolExecutor(max_workers=32) as pool:
        for img in imgs:
            pic_url = img.get_attribute('src')
            pool.submit(download_picture, pic_url)

运行代码后，项目根目录会自动生成images文件夹，所有爬取的图片会自动保存至该目录，可自行验证爬取效果。

Python从入门到精通day66

使用Selenium抓取网页动态内容

Selenium 介绍

Selenium 环境搭建与基础使用

安装Selenium库

基础用法：加载网页

驱动报错解决方案

手动指定ChromeDriver驱动路径

查找页面元素与模拟用户行为

隐式等待与显式等待

执行JavaScript代码

Selenium反爬破解方案

无头浏览器模式

Selenium 常用API参考

一、浏览器对象常用属性

二、浏览器对象常用方法

三、WebElement元素对象常用属性

四、WebElement元素对象常用方法

综合实战案例：动态图片批量爬取