CLI-Anything: 面向智能体原生计算环境的命令行界面范式

当前，大模型在推理与工具调用能力上的持续进步，使得构建能够操控现有软件的计算机使用智能体成为研究热点。然而，主流方案普遍采用图形用户界面（GUI）智能体范式，即通过解析屏幕截图、定位界面元素并模拟鼠标点击来复现人类操作。香港大学的Yuhao Yang、Tianyu Fan和Chao Huang在论文《CLI-Anything: Towards Agent-Native Computer Use》中指出，这种以GUI为中心的设计在根本上与大模型的能力特征错位。GUI智能体受困于脆弱的像素级交互、时序依赖以及坐标化操作，任何界面变更都可能导致行为失效，实质上迫使智能体模仿人类的感知局限，而非发挥其在结构化数据处理与程序化控制方面的计算优势。

CLI-Anything提出了一种智能体原生的计算机使用设计理念：不再让智能体去适应视觉化的界面布局，而是构建与其自然运作方式相契合的交互接口------通过结构化命令、显式状态表征与确定性反馈。该方法将现有应用程序转化为命令行套具（CLI harness），在保留原有功能的同时，暴露针对AI原生交互优化的机器可读协议，从而消除困扰GUI智能体的有损视觉-计算转换过程。

图1展示了这一核心思想中的"接口边界"（Interface Boundary）。左侧是人类GUI的操作域，包含菜单、点击目标、焦点变化与对话框时序等屏幕机械操作；中间是"摩擦场"（Friction field），涵盖移动工具栏、模态焦点、平台漂移与不确定状态等GUI智能体难以稳定处理的问题；右侧则是智能体合约（Agent contract）与软件基底（Software substrate），前者提供动词化命令、项目状态、JSON回复、预览与重放机制，后者包含原生文件、后端二进制、渲染/导出与结构化输出。该图的核心启示在于：应将智能体的注意力从屏幕机械操作转移至工件语义层面，围绕命令、持久状态、可预览工件与可重放验证来标准化操作合约，并验证导出的工件而非窗口动画。

这一理念建立在四项研究脉络的交汇之上：编码智能体依赖可执行的工作空间、文件、测试与包管理工具；工具调用训练与API导向基准测试关注模型的工具选择与参数构造能力；有状态应用世界基准测试引入数据库、策略、模拟用户与多应用工作流；多模态与计算机使用基准测试则保持视觉通道，涵盖网页、移动应用与桌面应用。CLI-Anything定位于这些工作所需的环境层，追问一个关键问题：能否为非代码类专业软件提供与代码环境同等风格的可执行边界？

论文提出的核心方法论是"套具提升"（Harness Lift），其完整流程在图2中呈现。该流程从"观察原生工作流"开始，经历定位（追踪文件、发现后端调用、识别渲染输出）、建模（命名领域名词、映射操作、记录约束）、设计（命令语法、JSON响应、可恢复错误、机器合约）、实现（项目状态、会话重放、撤销/重做钩子、持久行为）、渲染（调用真实后端、导出工件、构建预览、确立真实边界）、验证（单元测试、端到端检查、文件与像素探针、证明循环），最终发布为可移植技能（生成SKILL.md、注册元数据、暴露安装路径）。流程底部的质量准则明确要求：验证用户实际将要打开的工件，而非仅确认命令返回零退出码。

CLI-Anything将套具形式化为一个合约H = (S, C, I, R, V, D)，覆盖真实软件后端。S为持久状态空间，涵盖项目文件、会话文件、撤销历史、实时预览状态及重新打开工作所需的任何原生工件；C为命令词汇，通过Click子命令与REPL暴露领域特定的变更与探测操作；I为检查表面，提供JSON状态、列表、信息、模式、历史与预览摘要命令；R为渲染/导出关系，委托给真实软件或其原生后端工具；V为验证层，包含单元测试、端到端测试、子进程测试、文件格式检查、像素/媒体检查与后端门控断言；D为发现层，提供SKILL.md、注册元数据、安装策略、入口点与CLI-Hub记录。

图3阐释了"验证/执行对称性"（Verification/Execution Symmetry）原则。执行构建器通过命令选择状态、后端写入文件、会话记录谱系、导出目标工件；验证检查器则解析包结构、计数语义对象、测试像素/导出、比较元数据。两者在"结构化工件边界"（Structured artifact boundary）处汇合，该边界包含OOXML/SVG/MLT/JSON等格式、渲染输出、源指纹与包元数据。对称性规则指出：若验证在文件/包边界处证明真实性，则执行应在同一边界处构建与导出。这一设计使智能体能够在不切换至纯像素心智模型的情况下，完成构建、检查、渲染、验证与重放。

CLI-Anything进一步提出"状态即智能体工作空间"（State Is the Agent Workspace）的观点。JSON项目文件提供可检查的工作空间，会话文件记录当前项目路径与修改状态，撤销/重做栈使探索可恢复，试运行模式帮助智能体在变更前测试计划，确定性JSON使差异比较有意义，文件锁防止并发写入损坏会话。FreeCAD会话实现即为代表性案例：其保存撤销快照、维护重做历史、追踪修改状态，并在平台支持时通过独占锁持久化JSON。

图4展示了"预览作为显示协议"（Preview as Display Protocol）的设计。该协议定义了稳定的磁盘级预览包，包含manifest.json（合约+模式）、summary.json（紧凑语义视图）、artifacts/目录（渲染显示输出）、session.json（当前项目状态）、trajectory.json（命令重放轨迹）与fingerprints（源与导出真实性）。生产者CLI（套具）通过预览命令、后端渲染、配方元数据与源指纹发布预览状态包；消费者视图（CLI-Hub）以只读方式读取该状态，提供预览检查、HTML查看、监视与打开功能。协议价值在于：每位读者看到相同的预览，而后端工件始终作为真实来源。这一机制既满足了多模态智能体对视觉证据的需求，又保留了OSWorld等基准测试所强调的执行锚定桌面状态。

在发现与分发层面，CLI-Anything构建了CLI-Hub平台，提供61个配套技能文件（SKILL.md），总结命令组、示例、JSON用法、前置软件与智能体特定约束，使智能体在任务执行时获得能力描述，而非被迫从帮助文本中推断行为。当前系统已涵盖多种生产力与创意软件套具，包括Blender、FreeCAD、GIMP、LibreOffice、Shotcut、Draw.io等，并通过统一的发现层实现可安装、可读取、可调用与可恢复。

CLI-Anything的核心主张具有精确的范围界定：当软件的后端、文件格式、命令模型、渲染器或API可被提升时，智能体应优先使用提升后的合约。对于状态不透明、命令无法映射到原生操作、无头模式下渲染不可用或无法通过像素以外方式观察结果的场景，GUI自动化仍具必要性。该工作将编码、网页与桌面智能体评估中从静态答案到可执行环境的演进逻辑，扩展至工件生产型桌面软件领域，为大模型与现有专业软件之间的交互建立了新的范式基础。

论文链接：https://arxiv.org/pdf/2606.03854

项目链接：