Playwright 是什么?
微软开源的浏览器自动化引擎 · 从比喻到原理
📱 比喻:Playwright = 万能遥控器 平时你用手点手机屏幕 ------ 这是人工操作 。
Playwright 就是给 AI 用的万能遥控器 :
它可以自动点击 按钮、自动输入 文字、自动截图 、自动读取页面内容 ------ 就像你用手操作一样,但速度更快、可以批量执行。 📖 正式定义
Playwright 是微软 2020 年开源的浏览器自动化库,支持 Chromium、Firefox、WebKit 三大浏览器引擎,可以用 Python / JavaScript / Java / C# 等多种语言编写脚本,让程序自动操控浏览器。
本质上:它是一套编程接口,让你的代码能像人一样操作网页。
🛠️ 核心功能 🖱️ 点击 / 输入 模拟鼠标键盘操作 📸 截图 / PDF 页面截图、导出PDF 🔍 读取内容 提取文字、链接、数据 🤖 无头模式 后台运行、不显示窗口 ⏱️ 等待元素 智能等待页面加载 🌐 跨浏览器 Chromium/Firefox/WebKit ⚡ Playwright vs Selenium(老牌对手)
| Selenium(2004) | Playwright(2020) | |
|---|---|---|
| 速度 | 慢 需要中间协议转换 | 快 直接通过 CDP 协议 |
| 等待机制 | 需要手写 sleep / 显式等待 | 自动等待 元素出现才操作 |
| 浏览器支持 | 需要各浏览器驱动 | 内置 自动下载浏览器 |
| 跨 iframe | 需要切换 context | 自动穿透 无需手动切换 |
| Shadow DOM | 支持较弱 | 原生支持 |
| 维护方 | 社区维护 | 微软官方 持续更新 |
结论:Playwright 是 Selenium 的现代替代品,更快、更稳定、更易用。
🔗 OpenClaw 怎么用 Playwright?
OpenClaw 的 browser 工具,底层就是调用 Playwright。
你发消息 → OpenClaw AI → 调用 browser 工具 Playwright 引擎 → CDP 协议 → 真实浏览器 执行操作 → 返回结果 → 截图/文本发给你
举例:你说"帮我百度搜索银行卡读取设备"
→ AI 调用 browser(navigate)
→ Playwright 启动浏览器打开 baidu.com
→ AI 调用 browser(snapshot) 获取页面元素
→ Playwright 返回 ARIA 树(含 ref)
→ AI 调用 browser(act, type, ref=e14)
→ Playwright 向搜索框注入键盘事件
→ 完成搜索,截图返回
🔌 关键技术:CDP 协议
Playwright 通过 Chrome DevTools Protocol(CDP) 直接和浏览器对话。
CDP 是 Chrome 内置的"调试协议",本来是给开发者调试工具用的,Playwright 把它用来做自动化。
因为直接走 CDP,所以比 Selenium(走 WebDriver 协议,多一层封装)更快更强大。
🎯 一句话总结
Playwright = 微软开源的浏览器遥控器 SDK。
OpenClaw 的 browser 工具 = 用 Playwright 来操控浏览器。
ref 机制 = Playwright 给页面元素发的临时编号,让 AI 能精准找到要操作的元素。
整个链路:你说话 → AI 理解 → 调用 browser 工具 → Playwright 通过 CDP 操控浏览器 → 返回结果给你。
OpenClaw Browser Tool · Playwright 机制详解 · 2026.06.16