Playwright是什么?浏览器自动化的现代框架

Playwright 是什么?

微软开源的浏览器自动化引擎 · 从比喻到原理

📱 比喻:Playwright = 万能遥控器 平时你用手点手机屏幕 ------ 这是人工操作

Playwright 就是给 AI 用的万能遥控器

它可以自动点击 按钮、自动输入 文字、自动截图自动读取页面内容 ------ 就像你用手操作一样,但速度更快、可以批量执行。 📖 正式定义

Playwright 是微软 2020 年开源的浏览器自动化库,支持 Chromium、Firefox、WebKit 三大浏览器引擎,可以用 Python / JavaScript / Java / C# 等多种语言编写脚本,让程序自动操控浏览器。

本质上:它是一套编程接口,让你的代码能像人一样操作网页。

🛠️ 核心功能 🖱️ 点击 / 输入 模拟鼠标键盘操作 📸 截图 / PDF 页面截图、导出PDF 🔍 读取内容 提取文字、链接、数据 🤖 无头模式 后台运行、不显示窗口 ⏱️ 等待元素 智能等待页面加载 🌐 跨浏览器 Chromium/Firefox/WebKit ⚡ Playwright vs Selenium(老牌对手)

Selenium(2004) Playwright(2020)
速度 慢 需要中间协议转换 快 直接通过 CDP 协议
等待机制 需要手写 sleep / 显式等待 自动等待 元素出现才操作
浏览器支持 需要各浏览器驱动 内置 自动下载浏览器
跨 iframe 需要切换 context 自动穿透 无需手动切换
Shadow DOM 支持较弱 原生支持
维护方 社区维护 微软官方 持续更新

结论:Playwright 是 Selenium 的现代替代品,更快、更稳定、更易用。

🔗 OpenClaw 怎么用 Playwright?

OpenClaw 的 browser 工具,底层就是调用 Playwright。

你发消息 → OpenClaw AI → 调用 browser 工具 Playwright 引擎 → CDP 协议 → 真实浏览器 执行操作 → 返回结果 → 截图/文本发给你

举例:你说"帮我百度搜索银行卡读取设备"

→ AI 调用 browser(navigate)

→ Playwright 启动浏览器打开 baidu.com

→ AI 调用 browser(snapshot) 获取页面元素

→ Playwright 返回 ARIA 树(含 ref)

→ AI 调用 browser(act, type, ref=e14)

→ Playwright 向搜索框注入键盘事件

→ 完成搜索,截图返回

🔌 关键技术:CDP 协议

Playwright 通过 Chrome DevTools Protocol(CDP) 直接和浏览器对话。

CDP 是 Chrome 内置的"调试协议",本来是给开发者调试工具用的,Playwright 把它用来做自动化。

因为直接走 CDP,所以比 Selenium(走 WebDriver 协议,多一层封装)更快更强大。

🎯 一句话总结

Playwright = 微软开源的浏览器遥控器 SDK。

OpenClaw 的 browser 工具 = 用 Playwright 来操控浏览器。

ref 机制 = Playwright 给页面元素发的临时编号,让 AI 能精准找到要操作的元素。

整个链路:你说话 → AI 理解 → 调用 browser 工具 → Playwright 通过 CDP 操控浏览器 → 返回结果给你

OpenClaw Browser Tool · Playwright 机制详解 · 2026.06.16