GUI 自动化的三条路径：RPA 脚本 vs API 注入 vs 纯视觉 Agent

企业对 GUI 自动化的需求从未像今天这样强烈。从财务系统的批量录单，到 ERP 跨模块的数据流转，再到测试工程师希望用自然语言描述一条端到端的测试用例------驱动这一切的底层诉求是一致的：让机器像人一样操作软件界面，从而释放人的精力。

但"操作界面"这件事，实现路径差异极大。目前业界主要有三条技术路径：RPA 脚本、API/DOM 注入、纯视觉 Agent。三者在适用场景、脆弱点和工程成本上各有侧重，选错路径往往意味着大量的维护债务。

本文从技术原理出发，梳理三条路径的核心机制与边界，希望对正在做技术选型的工程师有所参考。

路径一：RPA 脚本

RPA（Robotic Process Automation）是最成熟的一条路，UiPath、Automation Anywhere、Blue Prism 等商业平台在企业级市场积累了超过十年的落地经验。

工作原理： RPA 通过录制用户操作或手动编写脚本，将 UI 元素的坐标、控件 ID、XPath 等标识符固化下来，在运行时定位并模拟操作。执行引擎与应用进程并行运行，不需要修改目标应用的源代码。

优势在哪里：

生态成熟，企业级功能齐全（审计日志、权限管控、异常处理框架）
对运维团队友好，可视化流程设计器降低了编写门槛
SAP、Oracle 等主流 ERP 有专项适配，开箱即用

脆弱点在哪里：

RPA 的阿喀琉斯之踵是元素定位的脆弱性。脚本依赖控件 ID、位置坐标或 XPath 路径，一旦目标应用升级、皮肤更换或分辨率变化，这些标识符就可能全部失效。在版本迭代频繁的 SaaS 应用面前，RPA 脚本的维护成本会随应用变更线性增长。

此外，RPA 天然不擅长处理动态 UI------弹窗顺序随状态变化、元素按条件显隐、拖拽排序等交互逻辑，往往需要大量硬编码分支来兜底，脚本规模和复杂度迅速膨胀。

适合场景： 界面稳定、流程固定、元素标识清晰的传统企业系统（如内网 ERP、OA 审批流）。

路径二：API / DOM 注入

随着 Web 技术成为企业应用的主流栈，基于 DOM 操作和浏览器协议的自动化方案逐渐成为第二条主流路径。Playwright、Selenium、Puppeteer 是这条路的代表工具；在 AI Agent 领域，基于 CDP（Chrome DevTools Protocol）的浏览器 Agent 也属于这一类。

工作原理： 通过调用浏览器的调试接口或直接操作 DOM 树，自动化程序可以以编程方式读取页面结构、触发事件、获取数据，而无需像人眼那样"看"界面。

优势在哪里：

执行速度快，不依赖视觉识别，操作精确
可访问完整的页面数据结构，适合数据提取和状态验证
与 CI/CD 流水线集成成熟，是 Web 测试自动化的事实标准

脆弱点在哪里：

这条路有一个硬约束：只在 Web 应用上有效。一旦目标是桌面软件（Win32、Electron、Qt）、移动端 App 或嵌入式系统界面，DOM 注入就完全失去了抓手。

另一个隐性问题是需要了解应用内部结构。如果目标系统使用了 Shadow DOM、动态 class 命名（如 CSS Modules 生成的哈希类名）或自定义 Web Components，选择器的稳定性会大幅下降，维护难度不亚于 RPA。

在安全沙箱环境中，某些企业应用会主动检测和屏蔽调试协议接入，这也是实际部署时常见的障碍。

适合场景： Web 应用的测试自动化、数据爬取、公开网页的 AI Agent 操作任务。

路径三：纯视觉 Agent

纯视觉 Agent 是三条路径中最年轻的一条，也是近两年 AI 领域关注度增长最快的方向。它的核心思路与 RPA 和 DOM 注入截然不同：完全通过截图来感知界面状态，不依赖任何内部结构信息。

工作原理：

复制代码

截图 → 视觉理解（元素定位 + 意图理解）→ 动作预测 → 执行 → 截图验证

Agent 在每一步操作前获取当前屏幕截图，通过视觉语言模型（VLM）理解界面语义和当前任务状态，预测下一步操作（点击、输入、滚动等），执行后再次截图确认结果。整个循环不需要注入任何钩子，也不需要访问应用的 DOM 或进程。

优势在哪里：

通用性最强：Web、桌面（Windows/macOS）、移动端、游戏界面、工控屏，只要能截图，就能操作
无需内部知识：不需要了解目标应用的代码结构、API 接口或元素标识
天然处理动态 UI：视觉模型每次都重新理解当前截图，界面变化不会导致路径失效
接近人类操作模式：便于用自然语言描述任务，降低使用门槛

挑战在哪里：

对视觉模型的元素定位精度要求很高------点击坐标偏差 10 像素可能导致操作完全错误
推理延迟高于 DOM 注入，实时性要求极高的场景需要专项优化
小字、低对比度、复杂重叠 UI 对视觉模型是难题

GUI Grounding 是关键能力

纯视觉 Agent 的核心技术挑战是 GUI Grounding------给定一段自然语言描述（如"点击提交按钮"），模型需要在截图中精确定位目标元素的像素坐标。这项能力的强弱直接决定了 Agent 的可用性。

横向对比

维度	RPA 脚本	API / DOM 注入	纯视觉 Agent
适用平台	Web + 桌面（有限）	Web 为主	Web + 桌面 + 移动端 + 任意 GUI
对应用的依赖	元素 ID / 坐标	DOM 结构 / 调试协议	截图（零依赖）
UI 变更抗性	低	中	高
动态 UI 处理	弱（需大量分支）	中（依赖 DOM 稳定性）	强（每步重新感知）
执行速度	快	快	中（受推理延迟影响）
维护成本	高（UI 变更即维护）	中	低（无需维护路径）
部署门槛	中（需平台许可证）	低	中（需视觉模型推理资源）
适合任务类型	固定流程、稳定系统	Web 测试、数据提取	复杂跨应用、自然语言驱动任务

行业方向：视觉路径的泛化优势

三条路径并非互斥，在实际工程中往往组合使用------例如用 Playwright 处理 Web 部分，用视觉 Agent 兜底处理无法 DOM 注入的桌面弹窗。

但从长期技术演进的方向来看，纯视觉路径具备其他两条路径难以复制的泛化优势：

平台无关性：随着企业应用向混合架构（SaaS + 本地桌面 + 移动端）演进，单一平台方案的覆盖率天花板越来越明显
维护成本曲线：RPA 和 DOM 注入的维护成本与 UI 变更频率正相关；视觉 Agent 的这条曲线基本是平的
自然语言接口：LLM 的发展使得"用人话描述任务"成为可能，而视觉 Agent 是最自然的承载形式

当然，视觉路径的成熟度提升依赖于视觉模型能力的持续进步，尤其是在 Grounding 精度和推理效率两个维度。这也是当前研究和工程投入最为密集的方向。

Mano-P：开源视觉 Agent 的一个实现参考

作为明略科技开源的 GUI Agent 项目，Mano-P 采用纯视觉路径（GUI-VLA 架构），实现了 Think-Act-Verify 的三阶段循环：模型在每次操作前显式推理当前状态，操作后截图验证结果，异常时触发回退逻辑。

在 OSWorld 基准 （专项模型类别）中，Mano-P 72B 评测版本达到 58.2% 的任务完成率 ，位列榜首。目前面向开发者开源的是 4B 量化版本，专为端侧实际运行优化。

在端侧部署方面，Mano-P 1.0-4B 配合 Cider 推理加速 SDK，在 Apple M5 Pro（64GB）上实测 decode 速度约 80 tok/s （W8A16），启用 W8A8 激活量化后 prefill 加速约 12.7%（数据来源：README Performance Evaluation）。支持在 M4 芯片 + 32GB 内存的 Mac 上完全本地运行，数据不出本机。

对于希望在自己的基础设施上运行 GUI Agent、或希望研究视觉路径技术细节的工程师，Mano-P 提供了一个可直接运行的开源参考实现：

👉 https://github.com/Mininglamp-AI/Mano-P

小结

GUI 自动化的三条路径各有其设计哲学：RPA 用元素标识锁定操作，API 注入用程序接口绕过界面，纯视觉 Agent 用感知代替依赖。没有哪条路径适合所有场景，技术选型的关键是理解目标系统的特点、任务的稳定性要求和团队的维护能力。

随着视觉模型在 Grounding 精度和推理效率上的持续提升，纯视觉路径在跨平台、动态 UI、自然语言驱动场景下的优势将越来越明显。这个方向值得持续关注。