AI Agent 正日益通过数字界面和物理环境的交互来执行复杂任务。它们在这些多样化环境中感知、处理和行 动的能力,正在从根本上重塑自动化、人机交互和智能系统的格局。本附录深入探讨 Agent 如何与计算机及 其环境交互,并重点介绍相关技术进展与代表性项目。
交互:Agent 与计算机
AI 从对话伙伴向主动式任务导向型 Agent 的演进,正由 Agent‐计算机界面(ACI)技术驱动。这些界面使 AI 能够直接与计算机的图形用户界面(GUI)交互,使其能像人类一样感知并操作图标、按钮等视觉元素。这 种新范式超越了依赖 API 和系统调用的传统自动化方法------后者往往受限于僵化的、依赖开发人员编写的脚 本。通过利用软件的视觉"前门",AI 现能以更灵活、更强大的方式自动化复杂数字任务,该过程涉及以下 关键阶段:
・ 视觉感知: Agent首先捕获屏幕的视觉呈现,本质上相当于截屏操作。
・ GUI 元素识别: 随后分析该图像以区分各类 GUI 元素。它必须学会将屏幕"解读"为具有交互组件的结构化布局,而非单纯的像素集合,能够辨别可点击的"提交"按钮与静态横幅广告,或区分可编辑文本框与普通标签。
・ 上下文理解:A CI 模块作为视觉数据与 Agent 核心智能(通常为大型语言模型 LLM)间的桥梁,在任务背景下解析这些元素。它能理解放大镜图标通常代表"搜索",或一组单选按钮表示选项。此模块对增强 LLM 推理能力至关重要,使其能基于视觉证据制定行动计划。
**・ 动态执行与响应:**Agent 随后通过程序化控制鼠标和键盘执行计划------包括点击、输入、滚动和拖拽。关键在于,它必须持续监控屏幕以获取视觉反馈,动态响应界面变化、加载状态、弹窗通知或错误信 息,从而成功驾驭多步骤工作流。
该技术已超越理论范畴。多家领先 AI 实验室已开发出功能性 Agent,充分展示了 GUI 交互的强大潜力:
**ChatGPT Operator(OpenAI):**作为数字协作伙伴的愿景,ChatGPT Operator 旨在直接从桌面端自动化 跨多种应用的任务。它能理解屏幕元素,从而执行诸如将电子表格数据导入客户关系管理(CRM)系统、在 航空公司和酒店网站间规划复杂行程,或填写详尽在线表单等操作,无需为每个服务配置专用 API 访问。这 使其成为通用性工具,旨在通过接管重复性数字任务提升个人与企业效率。
**Google Project Mariner:**作为研究原型,Project Mariner 以 Agent 身份在 Chrome 浏览器内运行(见图 1)。其核心目标是理解用户意图并自主执行基于网络的任务。例如,用户可指令其在特定预算和区域内寻找 三套出租公寓;Mariner 便会导航至房产网站,应用筛选条件,浏览房源列表,并将相关信息提取至文档中。 该项目体现了 Google 对构建真正实用且具"代理性"网络体验的探索------让浏览器主动为用户服务。

图 1:Agent 与网络浏览器的交互示意图
**Anthropic 的计算机使用功能:**该特性使 Anthropic 的 AI 模型 Claude 能够成为计算机桌面环境的直接操作 用户。通过截屏感知界面并以程序化方式控制鼠标键盘,Claude 可编排跨多个独立应用的工作流。用户可 要求其分析 PDF 报告中的数据,打开电子表格程序进行相关计算,生成图表,并将图表插入邮件草稿------这 一系列任务以往需要持续的人工介入。
**Browser Use:**这是一个提供程序化浏览器自动化高级 API 的开源库。它使 AI Agent 能通过访问和控制文 档对象模型(DOM)与网页交互。该 API 将浏览器控制协议的复杂底层指令抽象为更简洁直观的函数集。这 使得 Agent 能执行复杂操作序列,包括从嵌套元素提取数据、提交表单以及跨页面自动导航。因此,该库助 力将非结构化网络数据转化为 AI Agent 可系统处理并用于分析或决策的结构化格式。
交互:Agent 与环境
超越计算机屏幕的局限,AI Agent 正越来越多地被设计用于与复杂、动态的环境交互,这些环境往往模拟现 实世界。这要求 Agent 具备精密的感知、推理和执行能力。
Google 的 Project Astra 是推动 Agent 与环境交互边界的一个典范。Astra 致力于打造一个在日常生活中实 用的通用 AI Agent,它利用多模态输入(视觉、听觉、语音)和输出来理解世界并进行上下文交互。该项目 聚焦于快速理解、推理与响应,使 Agent 能通过摄像头和麦克风"看见"和"听见"周遭环境,并在提供实 时协助的同时进行自然对话。Astra 的愿景是打造一个能无缝帮助用户完成从寻找失物到调试代码等各种任 务的 Agent,其核心在于理解所观察的环境。这超越了简单的语音指令,实现了对用户即时物理情境的真正 具身化理解。
Google 的 Gemini Live 将标准 AI 交互转化为流畅且动态的对话体验。用户可与 AI 交谈,并以极低延迟收 到自然语音回复,甚至能在语句中途打断或切换话题,AI 会立即适应。交互界面不限于语音,用户还可通过 手机摄像头、屏幕共享或文件上传融入视觉信息,进行更具情境感知的讨论。更高级版本甚至能感知用户语 调,并智能滤除无关背景噪音以提升对话理解。这些能力共同创造了丰富的交互场景,例如仅需将摄像头对 准某物即可获得该任务的实时指导。
OpenAI 的 GPT‐4o 模型 是专为"全向"交互设计的另一选择,意指其能跨语音、视觉和文本进行推理。该 模型以接近人类响应速度的低延迟处理这些输入,从而实现实时对话。例如,用户可向 AI 展示实时视频流 并询问画面内容,或用于语言翻译。OpenAI 为开发者提供了"实时 API",用于构建需要低延迟、语音到语 音交互的应用。
OpenAI 的 ChatGPT Agent 代表了相较于前代产品的重大架构升级,集成了新功能框架。其设计包含多项 核心功能模式:自主浏览实时互联网以提取实时数据的能力、动态生成并执行计算代码以完成数据分析等任 务的能力,以及直接与第三方软件应用交互的功能。这些能力的融合使 Agent 能从单一用户指令出发,编 排并完成复杂、有序的工作流。因此,它能自主管理整个流程,例如执行市场分析并生成对应演示文稿,或 规划物流安排并执行必要交易。在发布同时,OpenAI 主动应对了此类系统固有的新兴安全问题。随附的"系统卡"文件阐明了具备在线操作能力的 AI 可能带来的潜在风险,承认了新的滥用途径。为降低这些风险, Agent 架构内置了工程化保障措施,如要求特定操作类别需获得用户明确授权,并部署了强健的内容过滤机 制。公司现正通过反馈驱动的迭代流程,邀请初期用户群体共同完善这些安全协议。
Seeing AI 是 Microsoft 推出的一款免费移动应用,它通过实时描述周围环境,为盲人或视力障碍人士赋能。 该应用借助设备摄像头运用人工智能技术,识别并描述各类元素,包括物体、文字乃至人物。其核心功能涵 盖文档阅读、货币识别、条形码产品辨识以及场景和颜色描述。通过增强对视觉信息的可及性,Seeing AI 最 终提升了视障用户的独立生活能力。
Anthropic 的 Claude 4 系列:Anthropic 的 Claude 4 是另一款具备高级推理与分析能力的替代选择。尽管 其传统强项在于文本处理,但 Claude 4 也包含了强大的视觉功能,能处理来自图像、图表和文档的信息。该 模型适用于处理复杂的多步骤任务并提供详尽分析。虽然其实时对话特性并非主要焦点(相较于其他模型), 但其底层智能专为构建高能力 AI Agent 而设计。
Vibe 编码:使用 AI 的直观开发范式
除了与 GUI 和物理环境的直接交互外,开发人员使用 AI 构建软件的方式也涌现出新范式:"vibe 编码"。这 种方法摒弃了精确的、逐步的指令,转而依赖开发者与 AI 编码助手之间更直观、对话式和迭代的协作。开发 者提供高层次目标、期望的"氛围"或大致方向,AI 则生成与之匹配的代码。
该过程具有以下特征:
-
**・ 对话式提示:**开发者不再编写详细规格说明,而是用自然语言表达,如"为新应用创建一个简洁现代 风格的登录页面",或"重构此函数使其更符合 Pythonic 风格并提升可读性"。AI 会解读"现代"或" Pythonic"的"氛围"内涵,生成相应代码。
-
**・ 迭代精炼:**AI 的初始输出通常只是起点。开发者随后以自然语言提供反馈,如"这个开头不错,但能 把按钮改成蓝色吗?"或"为那段代码添加错误处理机制。"如此往复,直至代码符合预期。
-
**・ 创意伙伴关系:**在 vibe 编码中,AI 扮演创意伙伴角色,提出开发者可能未曾考虑的创意和解决方案。 这能加速开发进程并催生更具创新性的成果。
-
**・ 聚焦"目标"而非"方法":**开发者专注于期望成果("目标"),将实现细节("方法")交由AI处理。这 使得快速原型设计和多方案探索成为可能,避免陷入样板代码的繁琐。
-
**・ 可选记忆库:**为在长对话中保持上下文连贯,开发者可使用"记忆库"存储关键信息、偏好或约束条 件。例如,开发者可将特定编码风格或项目需求集保存至 AI 记忆库,确保后续代码生成与既定"氛围" 保持一致,无需重复指令。
随着 GPT‐4、Claude 和 Gemini 等强大 AI 模型集成至开发环境,Vibe 编码日益流行。这些工具不仅是代码 自动补全器;它们正积极参与软件开发的创意过程,使其更易用、更高效。
关键要点
・ AI Agent 正从简单自动化演进为通过图形用户界面视觉控制软件,操作方式类人化。
・ 下一前沿是现实世界交互,如GoogleAstra等项目利用摄像头和麦克风感知、聆听并理解物理环境。 ・ 领先科技公司正融合这些数字与物理能力,打造跨域无缝运行的通用AI助手。
・ 这一转变催生了新型主动式、情境感知型AI伙伴,能协助用户处理日常生活中的大量任务。
结论
Agent 正经历重大转型,从基础自动化迈向与数字及物理环境的复杂交互。借助视觉感知操作图形用户界 面,这些 Agent 现已能像人类一样操控软件,绕过了对传统 API 的依赖。主要技术实验室正引领这一领域, 其开发的 Agent 能在用户桌面直接自动化复杂的多应用工作流。与此同时,下一前沿已扩展至物理世界,如 Google Project Astra 等项目利用摄像头和麦克风与周边环境进行情境化互动。这些先进系统旨在实现媲美 人类交互的多模态实时理解。
终极愿景是融合这些数字与物理能力,创建跨用户所有环境无缝运作的通用 AI 助手。这一演进也通过"vibe 编码"重塑了软件创作本身,形成开发者与 AI 间更直观、对话式的伙伴关系。该新方法优先考虑高层次目标 与创意意图,让开发者聚焦于期望成果而非实现细节。通过将 AI 视为创意合作伙伴,这一转变加速了开发 进程并激发了创新。最终,这些进步正为主动式、情境感知型 AI 伙伴的新时代铺平道路,使其能够协助我们 应对日常生活中的大量任务。
参考文献
-
OpenAIOperator,https://openai.com/index/introducing‐operator/
-
OpenAIChatGPTAgent:https://openai.com/index/introducing‐chatgpt‐agent/
-
BrowserUse:https://docs.browser‐use.com/introduction
-
ProjectMariner,https://deepmind.google/models/project‐mariner/
-
AnthropicComputeruse:https://docs.anthropic.com/en/docs/build‐with‐claude/computer‐use 6. ProjectAstra,https://deepmind.google/models/project‐astra/
-
GeminiLive,https://gemini.google/overview/gemini‐live/?hl=en
-
OpenAI'sGPT‐4,https://openai.com/index/gpt‐4‐research/