使用Selenium抓取网页动态内容
根据权威互联网可访问性审计报告显示,全球约四分之三的网站内容均通过JavaScript动态渲染生成。这意味着我们通过浏览器"查看网页源代码"获取的静态HTML中,无法读取到这部分动态内容,此前基于静态源码的爬虫方案会直接失效。
目前解决动态页面爬取主要有两种主流方案:第一种是抓包获取后端数据接口,该方案适配网页、手机App等各类场景,可通过浏览器开发者工具或专业抓包工具(Charles、Fiddler、Wireshark等)实现,用法与之前360图片接口爬取案例一致,本文不再赘述;第二种是借助自动化测试工具Selenium,驱动浏览器完整渲染页面,直接获取加载后的动态内容。本章将重点讲解Selenium动态爬虫的完整使用方法。
Selenium 介绍
Selenium是一款开源的浏览器自动化测试工具,核心能力是驱动主流浏览器模拟真实用户操作,自动完成页面加载、元素交互等行为。对于爬虫开发而言,Selenium最大的优势是:凡是浏览器可视的页面内容,均可通过Selenium精准获取,完美适配JavaScript动态渲染、异步加载的网页场景,是动态爬虫的核心工具。
本文以Chrome浏览器为例讲解Selenium的完整用法。使用前需提前安装Chrome浏览器,并下载对应版本的浏览器驱动ChromeDriver。驱动下载可前往ChromeDriver官方下载地址,驱动版本必须与本地Chrome浏览器版本匹配,无完全一致版本时,选择版本号最接近的适配版本即可。
Selenium 环境搭建与基础使用
安装Selenium库
通过pip命令一键安装Selenium第三方库,命令如下:
pip install selenium
基础用法:加载网页
安装完成后,可通过简单代码驱动Chrome浏览器自动打开指定网页,示例以百度首页为例:
from selenium import webdriver
# 创建Chrome浏览器实例对象
browser = webdriver.Chrome()
# 加载并打开指定URL页面
browser.get('https://www.baidu.com/')
Selenium支持Firefox、Safari等主流浏览器,只需替换对应浏览器实例对象即可,代码逻辑完全通用。
驱动报错解决方案
初次运行代码大概率会出现以下报错,核心原因是系统无法找到ChromeDriver驱动文件:
selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home
这里提供三种稳定的解决方案,按需选择即可:
-
- 全局环境变量配置(推荐):将ChromeDriver驱动文件放入Python解释器同级目录,该目录已默认加入系统PATH环境变量,系统可自动识别驱动。
-
- 虚拟环境配置 :将驱动文件放入项目虚拟环境的
bin目录(Windows系统为Scripts目录),适配当前项目独立环境,避免版本冲突。
- 虚拟环境配置 :将驱动文件放入项目虚拟环境的
-
- 代码手动指定驱动路径 :通过
service参数手动绑定驱动文件路径,适配所有环境,代码兼容性最强:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service手动指定ChromeDriver驱动路径
browser = webdriver.Chrome(service=Service(executable_path='venv/bin/chromedriver'))
browser.get('https://www.baidu.com/') - 代码手动指定驱动路径 :通过
查找页面元素与模拟用户行为
页面加载完成后,可通过Selenium提供的方法定位页面元素,并模拟人工输入、点击等用户操作,完美复刻真实浏览行为。
核心方法分为两类:find\_element\(\)获取单个页面元素,返回WebElement对象;find\_elements\(\)获取一组同类元素,返回列表。Selenium支持ID、CSS选择器、XPath、标签名、类名等主流元素定位方式。
获取元素后,可通过send\_keys\(\)模拟输入、click\(\)模拟点击,完整示例如下(模拟百度搜索Python):
from selenium import webdriver
from selenium.webdriver.common.by import By
# 初始化浏览器并打开百度
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
# 通过ID定位搜索输入框,模拟输入关键词
kw_input = browser.find_element(By.ID, 'kw')
kw_input.send_keys('Python')
# 通过CSS选择器定位搜索按钮,模拟点击操作
su_button = browser.find_element(By.CSS_SELECTOR, '#su')
su_button.click()
除基础操作外,Selenium还支持拖拽、悬浮、键盘组合键等复杂操作,可通过ActionChains类实现,大家可自行拓展学习。
隐式等待与显式等待
动态网页的元素加载存在延迟,若代码执行速度快于页面渲染速度,会触发NoSuchElementException元素找不到异常。为解决该问题,Selenium提供两种等待机制,适配不同场景。
隐式等待:全局生效,设置最大等待时长,在指定时间内持续轮询查找元素,超时则报错,适用于简单场景。
显式等待:针对性等待指定元素满足特定条件,灵活性更高、稳定性更强,是动态爬虫的首选方案。
完整综合示例(包含等待、窗口设置、页面截屏):
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait
# 初始化浏览器并设置窗口大小
browser = webdriver.Chrome()
browser.set_window_size(1200, 800)
browser.get('https://www.baidu.com/')
# 设置全局隐式等待:最大等待10秒
browser.implicitly_wait(10)
# 执行搜索操作
kw_input = browser.find_element(By.ID, 'kw')
kw_input.send_keys('Python')
su_button = browser.find_element(By.CSS_SELECTOR, '#su')
su_button.click()
# 创建显式等待对象,最大等待10秒
wait_obj = WebDriverWait(browser, 10)
# 等待搜索结果模块加载完成
wait_obj.until(
expected_conditions.presence_of_element_located(
(By.CSS_SELECTOR, '#content_left')
)
)
# 页面截屏保存
browser.get_screenshot_as_file('python_result.png')
常用等待条件汇总表,可直接按需调用:
| 等待条件 | 具体含义 |
|---|---|
title_is / title_contains |
页面标题等于指定内容 / 标题包含指定内容 |
visibility_of |
元素处于可见状态 |
presence_of_element_located |
目标元素加载完成并存在于页面 |
visibility_of_element_located |
定位元素加载完成且可见 |
invisibility_of_element_located |
定位元素隐藏、不可见 |
presence_of_all_elements_located |
页面所有目标元素全部加载完成 |
text_to_be_present_in_element |
元素文本包含指定内容 |
text_to_be_present_in_element_value |
元素value属性包含指定内容 |
frame_to_be_available_and_switch_to_it |
iframe框架加载完成并自动切换 |
element_to_be_clickable |
元素加载完成且可点击 |
element_to_be_selected |
元素处于选中状态 |
element_located_to_be_selected |
定位后的元素处于选中状态 |
alert_is_present |
页面弹出Alert弹窗 |
执行JavaScript代码
针对瀑布流、滚动加载等需要滑动页面加载更多内容的场景,可通过Selenium的execute_script方法执行原生JS代码,模拟页面滚动、元素操作等行为,适配复杂动态页面。
常用场景:页面滚动至底部加载全部内容,代码可直接嵌入上述案例中使用:
# 执行JS代码,将页面滚动至最底部
browser.execute_script('document.documentElement.scrollTop = document.documentElement.scrollHeight')
复杂动态爬虫常依赖JS操作,建议简单了解BOM、DOM基础语法,可大幅提升爬虫适配能力。
Selenium反爬破解方案
多数网站具备Selenium反爬检测机制:自动化驱动的浏览器会默认标记webdriver=true,网站可通过该参数识别爬虫并拦截访问。同时浏览器顶部会显示"正受到自动测试软件的控制"提示,暴露爬虫身份。
以下是完整的反爬绕过方案,可隐藏自动化特征,模拟真实浏览器环境:
from selenium import webdriver
# 配置Chrome浏览器参数,隐藏自动化特征
options = webdriver.ChromeOptions()
# 关闭自动化测试提示
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 禁用自动化扩展
options.add_experimental_option('useAutomationExtension', False)
# 初始化浏览器对象
browser = webdriver.Chrome(options=options)
# 注入JS代码,修改webdriver检测参数,绕过网站反爬
browser.execute_cdp_cmd(
'Page.addScriptToEvaluateOnNewDocument',
{'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'}
)
# 常规页面操作
browser.set_window_size(1200, 800)
browser.get('https://www.baidu.com/')
无头浏览器模式
爬虫部署运行时,无需可视化浏览器窗口,可开启无头模式,隐藏浏览器界面、降低资源占用、提升爬取效率,适合服务器后台运行脚本。
from selenium import webdriver
options = webdriver.ChromeOptions()
# 开启无头浏览器模式
options.add_argument('--headless')
# 初始化无界面浏览器
browser = webdriver.Chrome(options=options)
browser.get('https://www.baidu.com/')
Selenium 常用API参考
Selenium功能丰富,本文仅讲解核心用法,更多细节可查阅Selenium Python中文官方文档。以下整理高频使用的浏览器对象与WebElement对象属性、方法。
一、浏览器对象常用属性
| 属性名 | 描述 |
|---|---|
current_url |
获取当前页面的完整URL |
current_window_handle |
获取当前浏览器窗口句柄 |
name |
获取当前浏览器名称 |
page_source |
获取包含动态渲染内容的完整页面源码 |
title |
获取当前页面标题 |
window_handles |
获取浏览器所有打开窗口的句柄列表 |
二、浏览器对象常用方法
| 方法名 | 描述 |
|---|---|
back / forward |
浏览器页面后退 / 前进 |
close / quit |
关闭当前窗口 / 退出整个浏览器实例 |
get |
加载并打开指定URL页面 |
maximize_window |
浏览器窗口最大化 |
refresh |
刷新当前页面 |
set_page_load_timeout |
设置页面加载超时时间 |
implicitly_wait |
设置全局隐式等待时间 |
get_cookie/ get_cookies |
获取单个Cookie / 全部Cookie |
add_cookie |
手动添加Cookie信息 |
delete_cookie/ delete_all_cookies |
删除指定Cookie / 清空全部Cookie |
find_element / find_elements |
查找单个元素 / 批量查找元素 |
三、WebElement元素对象常用属性
| 属性名 | 描述 |
|---|---|
location |
获取元素在页面中的坐标位置 |
size |
获取元素的宽高尺寸 |
text |
获取元素的文本内容 |
id |
获取元素的ID属性值 |
tag\_name |
获取元素的标签名 |
四、WebElement元素对象常用方法
| 方法名 | 描述 |
|---|---|
clear |
清空输入框、文本域内容 |
click |
点击目标元素 |
get_attribute |
获取元素指定属性的值 |
is_displayed |
判断元素是否可见 |
is_enabled |
判断元素是否可操作 |
is_selected |
判断单选框/复选框是否选中 |
send_keys |
模拟输入文本、按键 |
submit |
提交表单 |
value_of_css_property |
获取元素指定CSS样式属性 |
find_element / find_elements |
查找当前元素下的子元素 |
screenshot |
对当前元素单独截屏 |
综合实战案例:动态图片批量爬取
本案例结合Selenium动态加载、页面滚动、多线程下载,实现360图片网站关键词图片批量爬取,完整复刻工业级爬虫基础逻辑:
import os
import time
from concurrent.futures import ThreadPoolExecutor
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
# 图片保存目录
DOWNLOAD_PATH = 'images/'
def download_picture(picture_url: str):
"""
下载并保存图片
:param picture_url: 图片远程链接
"""
# 截取图片文件名
filename = picture_url[picture_url.rfind('/') + 1:]
# 请求图片资源
resp = requests.get(picture_url)
# 二进制写入保存图片
with open(os.path.join(DOWNLOAD_PATH, filename), 'wb') as file:
file.write(resp.content)
if __name__ == '__main__':
# 创建保存目录
if not os.path.exists(DOWNLOAD_PATH):
os.makedirs(DOWNLOAD_PATH)
# 初始化浏览器并打开360图片
browser = webdriver.Chrome()
browser.get('https://image.so.com/z?ch=beauty')
browser.implicitly_wait(10)
# 定位搜索框,输入关键词并回车搜索
kw_input = browser.find_element(By.CSS_SELECTOR, 'input[name=q]')
kw_input.send_keys('风景')
kw_input.send_keys(Keys.ENTER)
# 循环滚动页面,加载更多动态图片
for _ in range(10):
browser.execute_script(
'document.documentElement.scrollTop = document.documentElement.scrollHeight'
)
time.sleep(1)
# 批量获取所有图片元素
imgs = browser.find_elements(By.CSS_SELECTOR, 'div.waterfall img')
# 多线程批量下载图片,提升效率
with ThreadPoolExecutor(max_workers=32) as pool:
for img in imgs:
pic_url = img.get_attribute('src')
pool.submit(download_picture, pic_url)
运行代码后,项目根目录会自动生成images文件夹,所有爬取的图片会自动保存至该目录,可自行验证爬取效果。