视觉 Agent 爬取 vs Playwright 脚本:Browser Use 2026 选型表

作者:张大鹏 | 大鹏AI教育

标签:AI 爬虫 Browser-Use Playwright Agent

阅读提示

2026 年浏览器采集有两条热门路线:

  1. Playwright / Puppeteer 脚本 --- 选择器 + 确定性流程
  2. 视觉 Agent(如 Browser Use) --- 截图 + 多模态模型「看屏幕点按钮」

Demo 里视觉 Agent 很炫:「帮我把这个网站所有商品加购」------模型真的在动鼠标。上线后常见问题也真实:点错坐标、把 Banner 当列表、成本翻倍、失败难复盘

这篇基于 2026 年工程实践,给出选型表 + 合规边界 + 人工复核清单,帮你决定什么时候上 Browser Use,什么时候老老实实写 Playwright。

合规声明:全文只讨论公开页、授权系统、测试环境。不教绕过登录、验证码、风控。


1. 两条路线的本质差异

维度 Playwright 脚本 Browser Use 等视觉 Agent
输入信号 DOM / a11y 树 / locator 截图 + 有时叠加 DOM
决策方式 代码分支,确定性高 LLM + 视觉,概率性
失败模式 selector 失效,易定位 误点、幻觉、循环
Token / 算力 低(无每步 VLM) 高(每步看图)
可审计性 强(日志 + DOM) 弱(需录屏补证)
改版耐受 中(靠语义 locator) 表面上「更智能」,仍可能误读布局

结论前置 :生产采集默认 Playwright(或 Crawlee + Playwright) ;视觉 Agent 适合 探索、一次性、DOM 极难解析 的合规场景,且必须加人工复核闸门。


2. Browser Use 典型用法(探索分支)

Browser Use 把「浏览器控制」包成 Agent 工具,模型根据页面状态决定下一步。伪代码流程:

markdown 复制代码
Task: 打开 https://example.com/blog ,收集前 10 篇文章标题和链接
Loop:
  - 截图 / 读 DOM 摘要
  - LLM 输出 action: click / scroll / extract / done
  - 执行 action
  - 直到 done 或 max_steps

Python 侧概念示例(API 以官方仓库为准):

ini 复制代码
from browser_use import Agent, Browser

browser = Browser()
agent = Agent(
    task="On the public blog listing, collect title and url for the first 10 posts. Stop if login is required.",
    browser=browser,
    max_steps=30,
)
result = await agent.run()

必须加的工程约束

  • max_steps 硬上限
  • Prompt 写明:遇登录 / 验证码立即停止
  • 输出 JSON Schema 校验
  • 全程录屏或逐步截图归档

3. 2026 选型表:什么任务用哪条路

场景 推荐 理由
公开列表 + 分页 / Load More Playwright + Crawlee 确定性、可限速、易重试
内部后台(已授权)固定流程 Playwright 脚本 可审计、CI 可跑
DOM 极乱、一次性调研 Browser Use 探索 省写 selector 时间,但不直接入库
需要 a11y 语义 + MCP @playwright/mcp token 省、与 Agent 工具链一致
Canvas / 重度视觉布局 视觉 Agent 仅辅助 必须人工确认抽取结果
高频、大规模、SLA 采集 Playwright 脚本 成本和稳定性占优
验证码 / 登录墙后面 都不自动化 合规停止,转人工或官方 API

决策一句话

稳定入库 → Playwright;要快速探路 → Browser Use;探路结果必须经脚本化或人工复核后再进生产。


4. 混合架构(推荐)

javascript 复制代码
┌─────────────────┐
│  Browser Use    │  探索:录步骤、发现字段、验证能否公开访问
└────────┬────────┘
         │ 产出:步骤说明 + 样例 JSON + 风险点
         ▼
┌─────────────────┐
│ Playwright 脚本 │  生产:locator / a11y + Schema + 限速
└────────┬────────┘
         ▼
┌─────────────────┐
│ 人工抽检 5%     │  对照页面,拦截幻觉
└─────────────────┘

这样既不用「纯手写猜 selector」,也不会让 VLM 直接驱动生产队列。


5. 合规边界(视觉 Agent 尤其容易越线)

视觉 Agent 的 Prompt 若写「无论如何拿到数据」,模型更可能尝试危险操作(多次刷新、乱点 Cookie、试探登录框)。

硬性规则

规则 说明
公开或授权 无授权不采受限内容
遇验证即停 验证码、滑块、短信码 --- 不绕过
限速 视觉 Agent 更耗资源,更不应高频
不留 PII 不采用户隐私字段
可复盘 录屏 / 逐步截图 + action log
人工闸门 首批 N 条必须肉眼对照

禁止 :用视觉 Agent 识别验证码、模拟真人过风控、批量注册账号。这类需求应直接拒绝或改用官方 API


6. 失败重试与人工复核清单

自动重试(仅 Playwright 生产链路)

  • 网络超时:最多 2 次,指数退避
  • selector 失败:保存 snapshot,无限重试
  • HTTP 429:停止任务,调低并发

人工复核(Browser Use 或新站上线必做)

  • 随机抽 20 条记录与页面对照
  • 标题 / URL 是否来自正文区而非导航 / 广告
  • 是否误触登录或 Cookie 墙
  • 是否出现模型编造字段
  • 录屏中是否有异常高频点击
  • robots.txt 与 Terms 是否允许
  • 失败样本是否已归档

7. 结论

2026 年不是「视觉 Agent 取代 Playwright」,而是分工

  • Browser Use:合规探索、原型验证、DOM 太烂时的短期方案
  • Playwright:生产管道、审计、限速、CI

把视觉 Agent 当「会看图的实习生」,Playwright 当「持证上岗的操作员」------上线前实习生写的步骤,操作员要改写成脚本并过抽检。


参考来源

  1. Browser Use
  2. Playwright Best Practices
  3. Playwright MCP

作者 :张大鹏|来源 :大鹏AI教育
标签 :AI · 爬虫 · Browser-Use · Playwright
原创内容,转载需授权

相关推荐
IT乐手2 分钟前
Qwen3.7-Plus 重磅发布:11小时自主闭环开发APP,多模态智能体迎来新纪元
人工智能
金融RPA机器人丨实在智能6 分钟前
橡胶原料供应链转型:海外AI Agent适配国产进销存系统改造费用解析与实在Agent降本方案
人工智能·ai
AI服务老曹6 分钟前
源码交付与低代码布控:基于Docker与边缘计算的GB28181/RTSP视频AI管理平台架构二次开发实战
人工智能·低代码·docker
共创splendid--与您携手1 小时前
AI读取前端项目生成skill.md
前端·人工智能·ai
gis分享者2 小时前
AI数字营销实测体验,GEO效果查询功能体验
人工智能·csdn·geo·数字营销·实测体验·效果查询
莱歌数字2 小时前
轻出20%性能:三维拓扑优化如何重塑无人机电子设备散热格局
人工智能·科技·制造·cae·散热
猿小猴子3 小时前
主流 AI IDE 之一的「DeepSeek-Reasonix 」介绍
人工智能·ai·deepseek·reasonix
装不满的克莱因瓶3 小时前
链式法则如何传递参数误差 —— 深入理解神经网络中的梯度传播
人工智能·python·深度学习·神经网络·数学·机器学习·ai
Anastasiozzzz3 小时前
从有限状态机到智能体图:传统 FSM 与 Agent Graph的演进
java·人工智能·python·ai
程序员cxuan9 小时前
为每个任务配一套 harness:Claude Code 里的动态工作流
人工智能