视觉 Agent 爬取 vs Playwright 脚本:Browser Use 2026 选型表

作者:张大鹏 | 大鹏AI教育

标签:AI 爬虫 Browser-Use Playwright Agent

阅读提示

2026 年浏览器采集有两条热门路线:

  1. Playwright / Puppeteer 脚本 --- 选择器 + 确定性流程
  2. 视觉 Agent(如 Browser Use) --- 截图 + 多模态模型「看屏幕点按钮」

Demo 里视觉 Agent 很炫:「帮我把这个网站所有商品加购」------模型真的在动鼠标。上线后常见问题也真实:点错坐标、把 Banner 当列表、成本翻倍、失败难复盘

这篇基于 2026 年工程实践,给出选型表 + 合规边界 + 人工复核清单,帮你决定什么时候上 Browser Use,什么时候老老实实写 Playwright。

合规声明:全文只讨论公开页、授权系统、测试环境。不教绕过登录、验证码、风控。


1. 两条路线的本质差异

维度 Playwright 脚本 Browser Use 等视觉 Agent
输入信号 DOM / a11y 树 / locator 截图 + 有时叠加 DOM
决策方式 代码分支,确定性高 LLM + 视觉,概率性
失败模式 selector 失效,易定位 误点、幻觉、循环
Token / 算力 低(无每步 VLM) 高(每步看图)
可审计性 强(日志 + DOM) 弱(需录屏补证)
改版耐受 中(靠语义 locator) 表面上「更智能」,仍可能误读布局

结论前置 :生产采集默认 Playwright(或 Crawlee + Playwright) ;视觉 Agent 适合 探索、一次性、DOM 极难解析 的合规场景,且必须加人工复核闸门。


2. Browser Use 典型用法(探索分支)

Browser Use 把「浏览器控制」包成 Agent 工具,模型根据页面状态决定下一步。伪代码流程:

markdown 复制代码
Task: 打开 https://example.com/blog ,收集前 10 篇文章标题和链接
Loop:
  - 截图 / 读 DOM 摘要
  - LLM 输出 action: click / scroll / extract / done
  - 执行 action
  - 直到 done 或 max_steps

Python 侧概念示例(API 以官方仓库为准):

ini 复制代码
from browser_use import Agent, Browser

browser = Browser()
agent = Agent(
    task="On the public blog listing, collect title and url for the first 10 posts. Stop if login is required.",
    browser=browser,
    max_steps=30,
)
result = await agent.run()

必须加的工程约束

  • max_steps 硬上限
  • Prompt 写明:遇登录 / 验证码立即停止
  • 输出 JSON Schema 校验
  • 全程录屏或逐步截图归档

3. 2026 选型表:什么任务用哪条路

场景 推荐 理由
公开列表 + 分页 / Load More Playwright + Crawlee 确定性、可限速、易重试
内部后台(已授权)固定流程 Playwright 脚本 可审计、CI 可跑
DOM 极乱、一次性调研 Browser Use 探索 省写 selector 时间,但不直接入库
需要 a11y 语义 + MCP @playwright/mcp token 省、与 Agent 工具链一致
Canvas / 重度视觉布局 视觉 Agent 仅辅助 必须人工确认抽取结果
高频、大规模、SLA 采集 Playwright 脚本 成本和稳定性占优
验证码 / 登录墙后面 都不自动化 合规停止,转人工或官方 API

决策一句话

稳定入库 → Playwright;要快速探路 → Browser Use;探路结果必须经脚本化或人工复核后再进生产。


4. 混合架构(推荐)

javascript 复制代码
┌─────────────────┐
│  Browser Use    │  探索:录步骤、发现字段、验证能否公开访问
└────────┬────────┘
         │ 产出:步骤说明 + 样例 JSON + 风险点
         ▼
┌─────────────────┐
│ Playwright 脚本 │  生产:locator / a11y + Schema + 限速
└────────┬────────┘
         ▼
┌─────────────────┐
│ 人工抽检 5%     │  对照页面,拦截幻觉
└─────────────────┘

这样既不用「纯手写猜 selector」,也不会让 VLM 直接驱动生产队列。


5. 合规边界(视觉 Agent 尤其容易越线)

视觉 Agent 的 Prompt 若写「无论如何拿到数据」,模型更可能尝试危险操作(多次刷新、乱点 Cookie、试探登录框)。

硬性规则

规则 说明
公开或授权 无授权不采受限内容
遇验证即停 验证码、滑块、短信码 --- 不绕过
限速 视觉 Agent 更耗资源,更不应高频
不留 PII 不采用户隐私字段
可复盘 录屏 / 逐步截图 + action log
人工闸门 首批 N 条必须肉眼对照

禁止 :用视觉 Agent 识别验证码、模拟真人过风控、批量注册账号。这类需求应直接拒绝或改用官方 API


6. 失败重试与人工复核清单

自动重试(仅 Playwright 生产链路)

  • 网络超时:最多 2 次,指数退避
  • selector 失败:保存 snapshot,无限重试
  • HTTP 429:停止任务,调低并发

人工复核(Browser Use 或新站上线必做)

  • 随机抽 20 条记录与页面对照
  • 标题 / URL 是否来自正文区而非导航 / 广告
  • 是否误触登录或 Cookie 墙
  • 是否出现模型编造字段
  • 录屏中是否有异常高频点击
  • robots.txt 与 Terms 是否允许
  • 失败样本是否已归档

7. 结论

2026 年不是「视觉 Agent 取代 Playwright」,而是分工

  • Browser Use:合规探索、原型验证、DOM 太烂时的短期方案
  • Playwright:生产管道、审计、限速、CI

把视觉 Agent 当「会看图的实习生」,Playwright 当「持证上岗的操作员」------上线前实习生写的步骤,操作员要改写成脚本并过抽检。


参考来源

  1. Browser Use
  2. Playwright Best Practices
  3. Playwright MCP

作者 :张大鹏|来源 :大鹏AI教育
标签 :AI · 爬虫 · Browser-Use · Playwright
原创内容,转载需授权

相关推荐
Python私教1 小时前
Crawlee StagehandCrawler:自然语言点 Load More 的工程化爬虫
人工智能
南屹川1 小时前
【容器化】Docker实战:从入门到生产环境部署
人工智能
海蓝可知天湛1 小时前
Agent&IELTS雅思口语专属语料库
人工智能·github·rag·ielts·skills
随身数智备忘录1 小时前
什么是设备管理体系?设备管理体系包含哪些核心模块?
网络·数据库·人工智能
OpenBayes贝式计算2 小时前
涵盖 OCR 与多轮对话:1.3B 端侧多模态模型 MiniCPM-V-4.6 正式发布;百万级智能体数据集 AgentTrove 开源!包含代码修复及数学求解
人工智能
189228048612 小时前
NY352固态MT29F32T08GWLBHD6-24QJ:B
大数据·服务器·人工智能·科技·缓存
南屹川2 小时前
【数据库】PostgreSQL实战:从基础到高级特性
人工智能
zhangxingchao2 小时前
多 Agent 架构到底怎么选?从 Claude Agent Teams、Cognition/Devin 到工程落地原则
前端·人工智能·后端
不开大的凯20772 小时前
麦当秀AiPPT战略转向:从SaaS订阅迈向Token经济,AI办公定价模式迎来新探索
大数据·人工智能