Python从入门到精通day66

使用Selenium抓取网页动态内容

根据权威互联网可访问性审计报告显示,全球约四分之三的网站内容均通过JavaScript动态渲染生成。这意味着我们通过浏览器"查看网页源代码"获取的静态HTML中,无法读取到这部分动态内容,此前基于静态源码的爬虫方案会直接失效。

目前解决动态页面爬取主要有两种主流方案:第一种是抓包获取后端数据接口,该方案适配网页、手机App等各类场景,可通过浏览器开发者工具或专业抓包工具(Charles、Fiddler、Wireshark等)实现,用法与之前360图片接口爬取案例一致,本文不再赘述;第二种是借助自动化测试工具Selenium,驱动浏览器完整渲染页面,直接获取加载后的动态内容。本章将重点讲解Selenium动态爬虫的完整使用方法。

Selenium 介绍

Selenium是一款开源的浏览器自动化测试工具,核心能力是驱动主流浏览器模拟真实用户操作,自动完成页面加载、元素交互等行为。对于爬虫开发而言,Selenium最大的优势是:凡是浏览器可视的页面内容,均可通过Selenium精准获取,完美适配JavaScript动态渲染、异步加载的网页场景,是动态爬虫的核心工具。

本文以Chrome浏览器为例讲解Selenium的完整用法。使用前需提前安装Chrome浏览器,并下载对应版本的浏览器驱动ChromeDriver。驱动下载可前往ChromeDriver官方下载地址,驱动版本必须与本地Chrome浏览器版本匹配,无完全一致版本时,选择版本号最接近的适配版本即可

Selenium 环境搭建与基础使用

安装Selenium库

通过pip命令一键安装Selenium第三方库,命令如下:

复制代码
pip install selenium
基础用法:加载网页

安装完成后,可通过简单代码驱动Chrome浏览器自动打开指定网页,示例以百度首页为例:

复制代码
from selenium import webdriver

# 创建Chrome浏览器实例对象
browser = webdriver.Chrome()
# 加载并打开指定URL页面
browser.get('https://www.baidu.com/')

Selenium支持Firefox、Safari等主流浏览器,只需替换对应浏览器实例对象即可,代码逻辑完全通用。

驱动报错解决方案

初次运行代码大概率会出现以下报错,核心原因是系统无法找到ChromeDriver驱动文件:

复制代码
selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home

这里提供三种稳定的解决方案,按需选择即可:

    1. 全局环境变量配置(推荐):将ChromeDriver驱动文件放入Python解释器同级目录,该目录已默认加入系统PATH环境变量,系统可自动识别驱动。
    1. 虚拟环境配置 :将驱动文件放入项目虚拟环境的bin目录(Windows系统为Scripts目录),适配当前项目独立环境,避免版本冲突。
    1. 代码手动指定驱动路径 :通过service参数手动绑定驱动文件路径,适配所有环境,代码兼容性最强:

    from selenium import webdriver
    from selenium.webdriver.chrome.service import Service

    手动指定ChromeDriver驱动路径

    browser = webdriver.Chrome(service=Service(executable_path='venv/bin/chromedriver'))
    browser.get('https://www.baidu.com/')

查找页面元素与模拟用户行为

页面加载完成后,可通过Selenium提供的方法定位页面元素,并模拟人工输入、点击等用户操作,完美复刻真实浏览行为。

核心方法分为两类:find\_element\(\)获取单个页面元素,返回WebElement对象;find\_elements\(\)获取一组同类元素,返回列表。Selenium支持ID、CSS选择器、XPath、标签名、类名等主流元素定位方式。

获取元素后,可通过send\_keys\(\)模拟输入、click\(\)模拟点击,完整示例如下(模拟百度搜索Python):

复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By

# 初始化浏览器并打开百度
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')

# 通过ID定位搜索输入框,模拟输入关键词
kw_input = browser.find_element(By.ID, 'kw')
kw_input.send_keys('Python')

# 通过CSS选择器定位搜索按钮,模拟点击操作
su_button = browser.find_element(By.CSS_SELECTOR, '#su')
su_button.click()

除基础操作外,Selenium还支持拖拽、悬浮、键盘组合键等复杂操作,可通过ActionChains类实现,大家可自行拓展学习。

隐式等待与显式等待

动态网页的元素加载存在延迟,若代码执行速度快于页面渲染速度,会触发NoSuchElementException元素找不到异常。为解决该问题,Selenium提供两种等待机制,适配不同场景。

隐式等待:全局生效,设置最大等待时长,在指定时间内持续轮询查找元素,超时则报错,适用于简单场景。

显式等待:针对性等待指定元素满足特定条件,灵活性更高、稳定性更强,是动态爬虫的首选方案。

完整综合示例(包含等待、窗口设置、页面截屏):

复制代码
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait

# 初始化浏览器并设置窗口大小
browser = webdriver.Chrome()
browser.set_window_size(1200, 800)
browser.get('https://www.baidu.com/')

# 设置全局隐式等待:最大等待10秒
browser.implicitly_wait(10)

# 执行搜索操作
kw_input = browser.find_element(By.ID, 'kw')
kw_input.send_keys('Python')
su_button = browser.find_element(By.CSS_SELECTOR, '#su')
su_button.click()

# 创建显式等待对象,最大等待10秒
wait_obj = WebDriverWait(browser, 10)
# 等待搜索结果模块加载完成
wait_obj.until(
    expected_conditions.presence_of_element_located(
        (By.CSS_SELECTOR, '#content_left')
    )
)

# 页面截屏保存
browser.get_screenshot_as_file('python_result.png')

常用等待条件汇总表,可直接按需调用:

等待条件 具体含义
title_is / title_contains 页面标题等于指定内容 / 标题包含指定内容
visibility_of 元素处于可见状态
presence_of_element_located 目标元素加载完成并存在于页面
visibility_of_element_located 定位元素加载完成且可见
invisibility_of_element_located 定位元素隐藏、不可见
presence_of_all_elements_located 页面所有目标元素全部加载完成
text_to_be_present_in_element 元素文本包含指定内容
text_to_be_present_in_element_value 元素value属性包含指定内容
frame_to_be_available_and_switch_to_it iframe框架加载完成并自动切换
element_to_be_clickable 元素加载完成且可点击
element_to_be_selected 元素处于选中状态
element_located_to_be_selected 定位后的元素处于选中状态
alert_is_present 页面弹出Alert弹窗
执行JavaScript代码

针对瀑布流、滚动加载等需要滑动页面加载更多内容的场景,可通过Selenium的execute_script方法执行原生JS代码,模拟页面滚动、元素操作等行为,适配复杂动态页面。

常用场景:页面滚动至底部加载全部内容,代码可直接嵌入上述案例中使用:

复制代码
# 执行JS代码,将页面滚动至最底部
browser.execute_script('document.documentElement.scrollTop = document.documentElement.scrollHeight')

复杂动态爬虫常依赖JS操作,建议简单了解BOM、DOM基础语法,可大幅提升爬虫适配能力。

Selenium反爬破解方案

多数网站具备Selenium反爬检测机制:自动化驱动的浏览器会默认标记webdriver=true,网站可通过该参数识别爬虫并拦截访问。同时浏览器顶部会显示"正受到自动测试软件的控制"提示,暴露爬虫身份。

以下是完整的反爬绕过方案,可隐藏自动化特征,模拟真实浏览器环境:

复制代码
from selenium import webdriver

# 配置Chrome浏览器参数,隐藏自动化特征
options = webdriver.ChromeOptions()
# 关闭自动化测试提示
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 禁用自动化扩展
options.add_experimental_option('useAutomationExtension', False)

# 初始化浏览器对象
browser = webdriver.Chrome(options=options)

# 注入JS代码,修改webdriver检测参数,绕过网站反爬
browser.execute_cdp_cmd(
    'Page.addScriptToEvaluateOnNewDocument',
    {'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'}
)

# 常规页面操作
browser.set_window_size(1200, 800)
browser.get('https://www.baidu.com/')
无头浏览器模式

爬虫部署运行时,无需可视化浏览器窗口,可开启无头模式,隐藏浏览器界面、降低资源占用、提升爬取效率,适合服务器后台运行脚本。

复制代码
from selenium import webdriver

options = webdriver.ChromeOptions()
# 开启无头浏览器模式
options.add_argument('--headless')
# 初始化无界面浏览器
browser = webdriver.Chrome(options=options)
browser.get('https://www.baidu.com/')

Selenium 常用API参考

Selenium功能丰富,本文仅讲解核心用法,更多细节可查阅Selenium Python中文官方文档。以下整理高频使用的浏览器对象与WebElement对象属性、方法。

一、浏览器对象常用属性
属性名 描述
current_url 获取当前页面的完整URL
current_window_handle 获取当前浏览器窗口句柄
name 获取当前浏览器名称
page_source 获取包含动态渲染内容的完整页面源码
title 获取当前页面标题
window_handles 获取浏览器所有打开窗口的句柄列表
二、浏览器对象常用方法
方法名 描述
back / forward 浏览器页面后退 / 前进
close / quit 关闭当前窗口 / 退出整个浏览器实例
get 加载并打开指定URL页面
maximize_window 浏览器窗口最大化
refresh 刷新当前页面
set_page_load_timeout 设置页面加载超时时间
implicitly_wait 设置全局隐式等待时间
get_cookie/ get_cookies 获取单个Cookie / 全部Cookie
add_cookie 手动添加Cookie信息
delete_cookie/ delete_all_cookies 删除指定Cookie / 清空全部Cookie
find_element / find_elements 查找单个元素 / 批量查找元素
三、WebElement元素对象常用属性
属性名 描述
location 获取元素在页面中的坐标位置
size 获取元素的宽高尺寸
text 获取元素的文本内容
id 获取元素的ID属性值
tag\_name 获取元素的标签名
四、WebElement元素对象常用方法
方法名 描述
clear 清空输入框、文本域内容
click 点击目标元素
get_attribute 获取元素指定属性的值
is_displayed 判断元素是否可见
is_enabled 判断元素是否可操作
is_selected 判断单选框/复选框是否选中
send_keys 模拟输入文本、按键
submit 提交表单
value_of_css_property 获取元素指定CSS样式属性
find_element / find_elements 查找当前元素下的子元素
screenshot 对当前元素单独截屏

综合实战案例:动态图片批量爬取

本案例结合Selenium动态加载、页面滚动、多线程下载,实现360图片网站关键词图片批量爬取,完整复刻工业级爬虫基础逻辑:

复制代码
import os
import time
from concurrent.futures import ThreadPoolExecutor

import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 图片保存目录
DOWNLOAD_PATH = 'images/'


def download_picture(picture_url: str):
    """
    下载并保存图片
    :param picture_url: 图片远程链接
    """
    # 截取图片文件名
    filename = picture_url[picture_url.rfind('/') + 1:]
    # 请求图片资源
    resp = requests.get(picture_url)
    # 二进制写入保存图片
    with open(os.path.join(DOWNLOAD_PATH, filename), 'wb') as file:
        file.write(resp.content)


if __name__ == '__main__':
    # 创建保存目录
    if not os.path.exists(DOWNLOAD_PATH):
        os.makedirs(DOWNLOAD_PATH)
    
    # 初始化浏览器并打开360图片
    browser = webdriver.Chrome()
    browser.get('https://image.so.com/z?ch=beauty')
    browser.implicitly_wait(10)

    # 定位搜索框,输入关键词并回车搜索
    kw_input = browser.find_element(By.CSS_SELECTOR, 'input[name=q]')
    kw_input.send_keys('风景')
    kw_input.send_keys(Keys.ENTER)

    # 循环滚动页面,加载更多动态图片
    for _ in range(10):
        browser.execute_script(
            'document.documentElement.scrollTop = document.documentElement.scrollHeight'
        )
        time.sleep(1)

    # 批量获取所有图片元素
    imgs = browser.find_elements(By.CSS_SELECTOR, 'div.waterfall img')

    # 多线程批量下载图片,提升效率
    with ThreadPoolExecutor(max_workers=32) as pool:
        for img in imgs:
            pic_url = img.get_attribute('src')
            pool.submit(download_picture, pic_url)

运行代码后,项目根目录会自动生成images文件夹,所有爬取的图片会自动保存至该目录,可自行验证爬取效果。

相关推荐
m0_596749091 小时前
JavaScript中手动实现一个new操作符的底层逻辑
jvm·数据库·python
DTAS尺寸公差分析软件1 小时前
DTAS3D v13.0 三维尺寸公差分析软件可申请试用
python·尺寸公差分析·三维公差分析·公差仿真软件·尺寸链计算
DTAS尺寸公差分析软件1 小时前
DTAS 3D公差分析软件最新版本介绍
python·3d·尺寸公差分析·尺寸链计算·尺寸工程·尺寸链校核软件·公差仿真分析
PieroPc2 小时前
CAMWATCH — 局域网摄像头监控系统 Fastapi + html
前端·python·html·fastapi·监控
feasibility.2 小时前
反爬十层妖塔:现代爬虫攻防的立体战争
爬虫·python·科技·scrapy·rust·go·硬件
十八旬2 小时前
快速安装ClaudeCode完整指南
开发语言·windows·python·claude
前进的李工2 小时前
EXPLAIN输出格式全解析:JSON、TREE与可视化
开发语言·数据库·mysql·性能优化·explain
dFObBIMmai3 小时前
如何在 CSS 中实现元素的绝对定位,使其不受窗口尺寸变化影响
jvm·数据库·python
Byron Loong3 小时前
【c++】为什么有了dll和.h,还需要包含lib
java·开发语言·c++