作者:张大鹏 | 大鹏AI教育
标签:
AI爬虫Browser-UsePlaywrightAgent

阅读提示
2026 年浏览器采集有两条热门路线:
- Playwright / Puppeteer 脚本 --- 选择器 + 确定性流程
- 视觉 Agent(如 Browser Use) --- 截图 + 多模态模型「看屏幕点按钮」
Demo 里视觉 Agent 很炫:「帮我把这个网站所有商品加购」------模型真的在动鼠标。上线后常见问题也真实:点错坐标、把 Banner 当列表、成本翻倍、失败难复盘。
这篇基于 2026 年工程实践,给出选型表 + 合规边界 + 人工复核清单,帮你决定什么时候上 Browser Use,什么时候老老实实写 Playwright。
合规声明:全文只讨论公开页、授权系统、测试环境。不教绕过登录、验证码、风控。
1. 两条路线的本质差异
| 维度 | Playwright 脚本 | Browser Use 等视觉 Agent |
|---|---|---|
| 输入信号 | DOM / a11y 树 / locator | 截图 + 有时叠加 DOM |
| 决策方式 | 代码分支,确定性高 | LLM + 视觉,概率性 |
| 失败模式 | selector 失效,易定位 | 误点、幻觉、循环 |
| Token / 算力 | 低(无每步 VLM) | 高(每步看图) |
| 可审计性 | 强(日志 + DOM) | 弱(需录屏补证) |
| 改版耐受 | 中(靠语义 locator) | 表面上「更智能」,仍可能误读布局 |
结论前置 :生产采集默认 Playwright(或 Crawlee + Playwright) ;视觉 Agent 适合 探索、一次性、DOM 极难解析 的合规场景,且必须加人工复核闸门。
2. Browser Use 典型用法(探索分支)
Browser Use 把「浏览器控制」包成 Agent 工具,模型根据页面状态决定下一步。伪代码流程:
markdown
Task: 打开 https://example.com/blog ,收集前 10 篇文章标题和链接
Loop:
- 截图 / 读 DOM 摘要
- LLM 输出 action: click / scroll / extract / done
- 执行 action
- 直到 done 或 max_steps
Python 侧概念示例(API 以官方仓库为准):
ini
from browser_use import Agent, Browser
browser = Browser()
agent = Agent(
task="On the public blog listing, collect title and url for the first 10 posts. Stop if login is required.",
browser=browser,
max_steps=30,
)
result = await agent.run()
必须加的工程约束:
max_steps硬上限- Prompt 写明:遇登录 / 验证码立即停止
- 输出 JSON Schema 校验
- 全程录屏或逐步截图归档
3. 2026 选型表:什么任务用哪条路

| 场景 | 推荐 | 理由 |
|---|---|---|
| 公开列表 + 分页 / Load More | Playwright + Crawlee | 确定性、可限速、易重试 |
| 内部后台(已授权)固定流程 | Playwright 脚本 | 可审计、CI 可跑 |
| DOM 极乱、一次性调研 | Browser Use 探索 | 省写 selector 时间,但不直接入库 |
| 需要 a11y 语义 + MCP | @playwright/mcp | token 省、与 Agent 工具链一致 |
| Canvas / 重度视觉布局 | 视觉 Agent 仅辅助 | 必须人工确认抽取结果 |
| 高频、大规模、SLA 采集 | Playwright 脚本 | 成本和稳定性占优 |
| 验证码 / 登录墙后面 | 都不自动化 | 合规停止,转人工或官方 API |
决策一句话:
要稳定入库 → Playwright;要快速探路 → Browser Use;探路结果必须经脚本化或人工复核后再进生产。
4. 混合架构(推荐)
javascript
┌─────────────────┐
│ Browser Use │ 探索:录步骤、发现字段、验证能否公开访问
└────────┬────────┘
│ 产出:步骤说明 + 样例 JSON + 风险点
▼
┌─────────────────┐
│ Playwright 脚本 │ 生产:locator / a11y + Schema + 限速
└────────┬────────┘
▼
┌─────────────────┐
│ 人工抽检 5% │ 对照页面,拦截幻觉
└─────────────────┘
这样既不用「纯手写猜 selector」,也不会让 VLM 直接驱动生产队列。
5. 合规边界(视觉 Agent 尤其容易越线)
视觉 Agent 的 Prompt 若写「无论如何拿到数据」,模型更可能尝试危险操作(多次刷新、乱点 Cookie、试探登录框)。
硬性规则:
| 规则 | 说明 |
|---|---|
| 公开或授权 | 无授权不采受限内容 |
| 遇验证即停 | 验证码、滑块、短信码 --- 不绕过 |
| 限速 | 视觉 Agent 更耗资源,更不应高频 |
| 不留 PII | 不采用户隐私字段 |
| 可复盘 | 录屏 / 逐步截图 + action log |
| 人工闸门 | 首批 N 条必须肉眼对照 |
禁止 :用视觉 Agent 识别验证码、模拟真人过风控、批量注册账号。这类需求应直接拒绝或改用官方 API。
6. 失败重试与人工复核清单
自动重试(仅 Playwright 生产链路) :
- 网络超时:最多 2 次,指数退避
- selector 失败:保存 snapshot,不无限重试
- HTTP 429:停止任务,调低并发
人工复核(Browser Use 或新站上线必做) :
- 随机抽 20 条记录与页面对照
- 标题 / URL 是否来自正文区而非导航 / 广告
- 是否误触登录或 Cookie 墙
- 是否出现模型编造字段
- 录屏中是否有异常高频点击
- robots.txt 与 Terms 是否允许
- 失败样本是否已归档
7. 结论
2026 年不是「视觉 Agent 取代 Playwright」,而是分工:
- Browser Use:合规探索、原型验证、DOM 太烂时的短期方案
- Playwright:生产管道、审计、限速、CI
把视觉 Agent 当「会看图的实习生」,Playwright 当「持证上岗的操作员」------上线前实习生写的步骤,操作员要改写成脚本并过抽检。
参考来源
作者 :张大鹏|来源 :大鹏AI教育
标签 :AI · 爬虫 · Browser-Use · Playwright
原创内容,转载需授权