Puppeteer-py:Python 中的无头浏览器自动化

1. 引言

在当今快速发展的互联网时代,自动化测试和数据抓取变得越来越重要。Puppeteer-py 作为一个 Python 库,提供了一种简单而强大的方法来控制无头浏览器,实现网页的自动化操作。无论是进行端到端的测试,还是抓取动态生成的数据,Puppeteer-py 都能提供极大的帮助。

2. 什么是 Puppeteer-py

Puppeteer-py 是 Puppeteer 的 Python 端口,Puppeteer 是一个 Node.js 库,用于控制无头 Chrome 或 Chromium 浏览器。Puppeteer-py 允许 Python 开发者以编程方式与浏览器交互,执行各种自动化任务。

3. Puppeteer-py 的特性

Puppeteer-py 继承了 Puppeteer 的所有特性,并针对 Python 进行了优化。以下是一些关键特性:

  • 无头浏览器控制:无需打开浏览器界面即可控制浏览器。
  • 生成截图和 PDF:轻松捕获网页的屏幕截图或生成 PDF 文件。
  • 自动化表单提交:自动化填写和提交网页表单。
  • 捕获元素信息:获取页面元素的文本、属性等信息。
  • 模拟用户行为:模拟点击、滚动、键盘输入等用户行为。
  • 网络请求拦截:拦截、修改或阻止网络请求。
  • JavaScript 执行:在页面上下文中执行 JavaScript 代码。
  • 异步操作:API 设计为异步,提高并发处理能力。

4.使用 Puppeteer-py 访问京东

本文将以访问京东网站为案例,演示如何使用 Puppeteer-py 进行自动化操作。详细过程如下:

4.1 初始化浏览器和页面

首先,我们需要初始化一个浏览器实例和一个新的页面

4.2 导航到京东

接下来,我们将导航到京东的主页:

4.3 搜索商品

假设我们要搜索"Python 书籍",我们可以模拟用户在搜索框中输入文本并点击搜索按钮的行为:

4.4 等待搜索结果

搜索结果可能需要一些时间来加载,我们可以使用 page.waitForSelector 方法等待特定的元素加载完成:

4.5 截图搜索结果

一旦搜索结果加载完成,我们可以对搜索结果页面进行截图:

4.6 关闭浏览器

最后,我们关闭浏览器实例:

完整代码过程如下所示:

import asyncio
from puppeteer import Browser, BrowserContext

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

async def main():
    # 设置代理服务器
    proxy = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"

    # 启动浏览器
    browser = await Browser.launcher().launch({
        'args': [
            '--proxy-server=' + proxy,
            # 其他需要的启动参数可以在这里添加
        ]
    })

    # 创建浏览器上下文,并设置代理
    browser_context = await browser.createIncognitoBrowserContext()
    page = await browser_context.newPage()
    
    # 设置页面代理
    await page.setExtraHTTPHeaders({
        'Proxy-Host': proxyHost,
        'Proxy-Port': proxyPort,
        'Proxy-Username': proxyUser,
        'Proxy-Password': proxyPass,
    })

    # 导航到京东
    await page.goto('https://www.jd.com')
    
    # 搜索"Python 书籍"
    await page.type('input[name="keyword"]', 'Python 书籍')
    await page.click('button[name="search-btn"]')
    
    # 等待搜索结果加载
    await page.waitForSelector('div.gl-item')
    
    # 截图搜索结果
    await page.screenshot(path='jd_search_result.png')
    
    # 关闭浏览器
    await browser.close()

if __name__ == '__main__':
    asyncio.run(main())

5. 结论

Puppeteer-py 是一个功能强大的 Python 库,为自动化 web 交互提供了便利。无论是数据抓取、自动化测试还是生成网页截图,Puppeteer-py 都能满足你的需求。通过本文的介绍和示例代码,你应该能够开始使用 Puppeteer-py 进行项目开发。

相关推荐
waterHBO17 分钟前
python 爬虫 selenium 笔记
爬虫·python·selenium
编程零零七1 小时前
Python数据分析工具(三):pymssql的用法
开发语言·前端·数据库·python·oracle·数据分析·pymssql
AIAdvocate3 小时前
Pandas_数据结构详解
数据结构·python·pandas
小言从不摸鱼3 小时前
【AI大模型】ChatGPT模型原理介绍(下)
人工智能·python·深度学习·机器学习·自然语言处理·chatgpt
FreakStudio5 小时前
全网最适合入门的面向对象编程教程:50 Python函数方法与接口-接口和抽象基类
python·嵌入式·面向对象·电子diy
redcocal6 小时前
地平线秋招
python·嵌入式硬件·算法·fpga开发·求职招聘
artificiali7 小时前
Anaconda配置pytorch的基本操作
人工智能·pytorch·python
RaidenQ7 小时前
2024.9.13 Python与图像处理新国大EE5731课程大作业,索贝尔算子计算边缘,高斯核模糊边缘,Haar小波计算边缘
图像处理·python·算法·课程设计
花生了什么树~.7 小时前
python基础知识(六)--字典遍历、公共运算符、公共方法、函数、变量分类、参数分类、拆包、引用
开发语言·python
Trouvaille ~8 小时前
【Python篇】深度探索NumPy(下篇):从科学计算到机器学习的高效实战技巧
图像处理·python·机器学习·numpy·信号处理·时间序列分析·科学计算