当前,大模型在推理与工具调用能力上的持续进步,使得构建能够操控现有软件的计算机使用智能体成为研究热点。然而,主流方案普遍采用图形用户界面(GUI)智能体范式,即通过解析屏幕截图、定位界面元素并模拟鼠标点击来复现人类操作。香港大学的Yuhao Yang、Tianyu Fan和Chao Huang在论文《CLI-Anything: Towards Agent-Native Computer Use》中指出,这种以GUI为中心的设计在根本上与大模型的能力特征错位。GUI智能体受困于脆弱的像素级交互、时序依赖以及坐标化操作,任何界面变更都可能导致行为失效,实质上迫使智能体模仿人类的感知局限,而非发挥其在结构化数据处理与程序化控制方面的计算优势。
CLI-Anything提出了一种智能体原生的计算机使用设计理念:不再让智能体去适应视觉化的界面布局,而是构建与其自然运作方式相契合的交互接口------通过结构化命令、显式状态表征与确定性反馈。该方法将现有应用程序转化为命令行套具(CLI harness),在保留原有功能的同时,暴露针对AI原生交互优化的机器可读协议,从而消除困扰GUI智能体的有损视觉-计算转换过程。

图1展示了这一核心思想中的"接口边界"(Interface Boundary)。左侧是人类GUI的操作域,包含菜单、点击目标、焦点变化与对话框时序等屏幕机械操作;中间是"摩擦场"(Friction field),涵盖移动工具栏、模态焦点、平台漂移与不确定状态等GUI智能体难以稳定处理的问题;右侧则是智能体合约(Agent contract)与软件基底(Software substrate),前者提供动词化命令、项目状态、JSON回复、预览与重放机制,后者包含原生文件、后端二进制、渲染/导出与结构化输出。该图的核心启示在于:应将智能体的注意力从屏幕机械操作转移至工件语义层面,围绕命令、持久状态、可预览工件与可重放验证来标准化操作合约,并验证导出的工件而非窗口动画。
这一理念建立在四项研究脉络的交汇之上:编码智能体依赖可执行的工作空间、文件、测试与包管理工具;工具调用训练与API导向基准测试关注模型的工具选择与参数构造能力;有状态应用世界基准测试引入数据库、策略、模拟用户与多应用工作流;多模态与计算机使用基准测试则保持视觉通道,涵盖网页、移动应用与桌面应用。CLI-Anything定位于这些工作所需的环境层,追问一个关键问题:能否为非代码类专业软件提供与代码环境同等风格的可执行边界?

论文提出的核心方法论是"套具提升"(Harness Lift),其完整流程在图2中呈现。该流程从"观察原生工作流"开始,经历定位(追踪文件、发现后端调用、识别渲染输出)、建模(命名领域名词、映射操作、记录约束)、设计(命令语法、JSON响应、可恢复错误、机器合约)、实现(项目状态、会话重放、撤销/重做钩子、持久行为)、渲染(调用真实后端、导出工件、构建预览、确立真实边界)、验证(单元测试、端到端检查、文件与像素探针、证明循环),最终发布为可移植技能(生成SKILL.md、注册元数据、暴露安装路径)。流程底部的质量准则明确要求:验证用户实际将要打开的工件,而非仅确认命令返回零退出码。
CLI-Anything将套具形式化为一个合约H = (S, C, I, R, V, D),覆盖真实软件后端。S为持久状态空间,涵盖项目文件、会话文件、撤销历史、实时预览状态及重新打开工作所需的任何原生工件;C为命令词汇,通过Click子命令与REPL暴露领域特定的变更与探测操作;I为检查表面,提供JSON状态、列表、信息、模式、历史与预览摘要命令;R为渲染/导出关系,委托给真实软件或其原生后端工具;V为验证层,包含单元测试、端到端测试、子进程测试、文件格式检查、像素/媒体检查与后端门控断言;D为发现层,提供SKILL.md、注册元数据、安装策略、入口点与CLI-Hub记录。

图3阐释了"验证/执行对称性"(Verification/Execution Symmetry)原则。执行构建器通过命令选择状态、后端写入文件、会话记录谱系、导出目标工件;验证检查器则解析包结构、计数语义对象、测试像素/导出、比较元数据。两者在"结构化工件边界"(Structured artifact boundary)处汇合,该边界包含OOXML/SVG/MLT/JSON等格式、渲染输出、源指纹与包元数据。对称性规则指出:若验证在文件/包边界处证明真实性,则执行应在同一边界处构建与导出。这一设计使智能体能够在不切换至纯像素心智模型的情况下,完成构建、检查、渲染、验证与重放。
CLI-Anything进一步提出"状态即智能体工作空间"(State Is the Agent Workspace)的观点。JSON项目文件提供可检查的工作空间,会话文件记录当前项目路径与修改状态,撤销/重做栈使探索可恢复,试运行模式帮助智能体在变更前测试计划,确定性JSON使差异比较有意义,文件锁防止并发写入损坏会话。FreeCAD会话实现即为代表性案例:其保存撤销快照、维护重做历史、追踪修改状态,并在平台支持时通过独占锁持久化JSON。

图4展示了"预览作为显示协议"(Preview as Display Protocol)的设计。该协议定义了稳定的磁盘级预览包,包含manifest.json(合约+模式)、summary.json(紧凑语义视图)、artifacts/目录(渲染显示输出)、session.json(当前项目状态)、trajectory.json(命令重放轨迹)与fingerprints(源与导出真实性)。生产者CLI(套具)通过预览命令、后端渲染、配方元数据与源指纹发布预览状态包;消费者视图(CLI-Hub)以只读方式读取该状态,提供预览检查、HTML查看、监视与打开功能。协议价值在于:每位读者看到相同的预览,而后端工件始终作为真实来源。这一机制既满足了多模态智能体对视觉证据的需求,又保留了OSWorld等基准测试所强调的执行锚定桌面状态。
在发现与分发层面,CLI-Anything构建了CLI-Hub平台,提供61个配套技能文件(SKILL.md),总结命令组、示例、JSON用法、前置软件与智能体特定约束,使智能体在任务执行时获得能力描述,而非被迫从帮助文本中推断行为。当前系统已涵盖多种生产力与创意软件套具,包括Blender、FreeCAD、GIMP、LibreOffice、Shotcut、Draw.io等,并通过统一的发现层实现可安装、可读取、可调用与可恢复。
CLI-Anything的核心主张具有精确的范围界定:当软件的后端、文件格式、命令模型、渲染器或API可被提升时,智能体应优先使用提升后的合约。对于状态不透明、命令无法映射到原生操作、无头模式下渲染不可用或无法通过像素以外方式观察结果的场景,GUI自动化仍具必要性。该工作将编码、网页与桌面智能体评估中从静态答案到可执行环境的演进逻辑,扩展至工件生产型桌面软件领域,为大模型与现有专业软件之间的交互建立了新的范式基础。
论文链接:https://arxiv.org/pdf/2606.03854
项目链接: