Selenium 自动化截取网页指定区域截图

一. 需求

在本篇博客中,我将分享一段使用Python编写的自动化网页截图代码,该代码基于Selenium和PIL库,可用于截取网页中指定区域的截图。这样的功能对于需要定期监控特定网页内容或进行网页数据采集的任务非常有用。

二. 代码解析

首先,我们使用Selenium库启动了一个Chrome浏览器,并通过设置选项隐藏了浏览器自动化控制提示。代码还实现了全屏效果,类似于按下F11键。

python 复制代码
import time
from selenium import webdriver
from PIL import Image

# 启动浏览器
chrome_options = webdriver.ChromeOptions()
# 隐藏浏览器自动化控制提示
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])

# 添加谷歌浏览器驱动位置
# chrome_options.binary_location = r"E:\应用\谷歌浏览器插件\chrome-win64\chrome.exe"

# 加载启动项页面全屏效果,相当于F11。
chrome_options.add_argument("--kiosk")

# 配置初始化
driver = webdriver.Chrome(options=chrome_options)

然后,我们打开了指定的网页,并获取了页面的宽度和高度。

python 复制代码
# 打开页面
url = 'https://baidu.com'  # 请替换为你要打开的页面
driver.get(url)

# 获取页面宽度与高度
hight,width = 'return document.body.clientHeight','return document.body.clientWidth'
h,w = driver.execute_script(hight),driver.execute_script(width)
print(w,h)

接下来,我们指定了要截取的区域的坐标,并使用Selenium的save_screenshot方法保存整个页面的截图。

python 复制代码
# 指定四个点的坐标,这里以左上角和右下角的坐标为例
# x1起始宽度到 x2最大宽度的距离
# y1起始高度到 y2最大高度的距离
x1, y1 = 0, 0  # 左上角坐标
x2, y2 = w, h-600  # 右下角坐标

# 获取整个页面截图
screenshot_path = 'screenshot.png'
driver.save_screenshot(screenshot_path)

随后,我们使用PIL库打开整个页面的截图,并通过crop方法截取指定区域。最后,保存截取的区域截图及关闭浏览器

python 复制代码
# 截取指定区域
im = Image.open(screenshot_path)
region = im.crop((x1, y1, x2, y2))

# 保存截图
cropped_path = 'result_screenshot.png'
region.save(cropped_path)

# 关闭浏览器
driver.close()

三. 总结

1. 完整代码

python 复制代码
import time

from selenium import webdriver
from PIL import Image

# 启动浏览器
# 隐藏浏览器自动化控制提示
chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])

# 添加谷歌浏览器驱动位置
# chrome_options.binary_location = r"E:\应用\谷歌浏览器插件\chrome-win64\chrome.exe"

# 加载启动项页面全屏效果,相当于F11。
chrome_options.add_argument("--kiosk")

# 配置初始化
driver = webdriver.Chrome(options=chrome_options)

# 打开页面
url = 'https://baidu.com'  # 请替换为你要打开的页面
driver.get(url)


# 获取页面宽度与高度
hight,width = 'return document.body.clientHeight','return document.body.clientWidth'
h,w = driver.execute_script(hight),driver.execute_script(width)
print(w,h)

# 指定四个点的坐标,这里以左上角和右下角的坐标为例
# x1起始宽度到 x2最大宽度的距离
# y1起始高度到 y2最大高度的距离
x1, y1 = 0, 0  # 左上角坐标
x2, y2 = w, h-600  # 右下角坐标

# 获取整个页面截图
screenshot_path = 'screenshot.png'
driver.save_screenshot(screenshot_path)

time.sleep(3)

# 截取指定区域
im = Image.open(screenshot_path)
region = im.crop((x1, y1, x2, y2))

# 保存截图
cropped_path = 'result_screenshot.png'
region.save(cropped_path)

# 关闭浏览器
driver.close()
  • 将代码中的网页链接和截取区域坐标调整为你想要的值。

  • 运行代码,即可生成指定区域的网页截图。

相关推荐
shimly12345622 分钟前
python3 uvicorn 是啥?
python
CTA量化套保1 小时前
期货量化程序 time.sleep 卡死:天勤单线程与 deadline 替代
python·区块链
GIS数据转换器2 小时前
城市排水生命线安全运行监测平台深度解析
java·运维·人工智能·python·安全·数据挖掘·无人机
贤哥哥yyds2 小时前
GBK转UTF\-8编码自动转换工具 使用文档
python
数量技术宅2 小时前
2026量化前沿:从Reddit热帖到Python实战,如何用赫斯特指数(Hurst)狙击虚假突破?
开发语言·python
华如锦2 小时前
面了很多 Java转AI Agent方向,一些面试题总结
java·开发语言·人工智能·python·ai
戴西软件3 小时前
戴西 DLM 许可授权管理系统:破解无网络环境下工业软件授权难题,助力制造企业降本增效
网络·人工智能·python·深度学习·程序人生·算法·制造
Dxy12393102163 小时前
Python线程锁:为什么多线程会“打架“,以及怎么解决
开发语言·前端·python
小白学大数据3 小时前
线上故障急救:依托 OpenClaw 日志排查 403 和 503 问题
爬虫·python·selenium·数据分析
databook4 小时前
用SymPy自动因式分解:从面积拼图到代数恒等式
python·数学·动效