CLI-Anything:一条命令把任意软件变成 AI Agent 原生工具

项目背景

由香港大学数据科学实验室(HKUDS)开源的 CLI-Anything 项目,以 Claude Code 插件形式分发,旨在解决当前 AI Agent 在调用专业桌面软件时面临的瓶颈问题。

解决的问题

传统 GUI Agent(截图+模拟点击)方案存在以下问题:

  • 识别不稳定
  • UI变动即失效
  • 延迟大
  • 容错率低

CLI-Anything 通过自动化为无 CLI 的 GUI 软件生成完整的命令行接口,使 Agent 能以结构化、可组合、自描述的终端命令直接操控真实软件,打通"工具调用"瓶颈。

技术原理

为何选择 CLI 而非 API/MCP

  • Token 开销更低(无需持久加载 JSON Schema,实测同任务 token 消耗降低约 40%)
  • 自描述性强(--help 即可获取完整功能说明,无需额外文档)
  • 执行确定性高(同命令同参数结果一致,利于 Agent 决策)
  • 通用性强(不依赖特定语言/框架/网络,跨平台支持)

核心设计哲学:零妥协真实调用

  • 生成的 CLI 直接操作真实项目文件格式(如 ODF、.blend、MLT XML 等),非简化替代品
  • 依赖真实软件执行:通过调用目标软件的无头模式/原生 CLI 进行渲染导出
  • 严格验证机制:不信任进程退出码,通过检查魔数字节、文件结构(如 ZIP/OOXML)、像素分析、音频 RMS 电平等多维度验证输出正确性

7阶段自动化流水线详解

CLI-Anything 采用全自动化的 7 阶段流水线,全程无需人工介入:

1. 分析(Analyze)

扫描目标软件源码,识别 GUI 操作对应的底层 API/函数(如 GIMP 的 Python-Fu、Blender 的 bpy 模块),建立"用户操作→程序接口"映射表。

2. 设计(Design)

规划 CLI 架构,包括命令分组逻辑、跨命令状态模型(项目文件传递)、输出格式规范(JSON 供 Agent 解析,表格供人类调试)。

3. 实现(Implement)

基于 Python Click 库自动生成 CLI 代码。内置 REPL 交互模式、JSON 结构化输出、撤销/重做功能。

4. 测试规划(Plan Tests)

自动生成 TEST.md,列出需覆盖的单元测试与端到端(E2E)测试用例。

5. 编写测试(Write Tests)

自动实现完整测试套件,验证 CLI 命令及真实软件输出(如 PDF 可打开、渲染图含像素、音频含波形)。

6. 文档(Document)

更新测试文档,记录执行结果与覆盖率。

7. 发布(Publish)

自动生成 setup.py,支持 pip install -e . 安装至系统 PATH,Agent 可通过 which 命令自动发现。

支持的软件列表

已验证的 9 款软件:

软件名称 领域 说明
GIMP 图像编辑 开源版 Photoshop
Blender 3D 建模与渲染 业界知名 3D 创作套件
Inkscape 矢量图形 开源版 Illustrator
LibreOffice 办公套件 文档/表格/演示文稿等
Audacity 音频处理 经典音频编辑工具
OBS Studio 直播推流 主流直播与录屏软件
Shotcut 视频编辑 开源视频剪辑工具
Kdenlive 视频编辑 KDE 生态视频剪辑工具
draw.io/diagrams.net 图表绘制 流程图与架构图工具

测试数据

9 款软件累计生成超过 1400 项测试(含单元测试与 E2E 测试),全部通过,达到生产级可靠性。

使用教程

环境准备

  • 支持插件的 Claude Code
  • Python 3.10+
  • 已安装目标软件

添加插件市场

bash 复制代码
/plugin marketplace add HKUDS/CLI-Anything

安装插件

bash 复制代码
/plugin install cli-anything

生成 CLI

本地源码:

bash 复制代码
/cli-anything ./gimp

GitHub 仓库:

bash 复制代码
/cli-anything https://github.com/blender/blender

安装与使用

bash 复制代码
cd gimp/
pip install -e .

总结

CLI-Anything 项目通过创新的 7 阶段自动化流水线,成功解决了 AI Agent 调用专业桌面软件的难题。其核心优势在于:

  • 零妥协的真实调用,直接操作真实文件格式
  • 全自动化的 CLI 生成流程,无需人工介入
  • 严格的验证机制确保输出正确性
  • 支持 9 款主流专业软件,覆盖图像、3D、办公、音视频等多个领域

该项目为 AI Agent 与专业软件的交互提供了全新的解决方案,值得开发者关注和学习。

相关推荐
HIT_Weston2 小时前
80、【Agent】【OpenCode】bash 工具提示词(专用工具)
人工智能·agent·opencode
深度森林2 小时前
医学应用“手术机器人导航”高价值专利案例:基于计算机视觉的临床手术机器人导航规划方法
人工智能·计算机视觉·机器人
许彰午2 小时前
# OCR与语音识别——政务AI的两个实用场景
人工智能·ocr·语音识别
xixixi777772 小时前
《机密计算破局政务金融、截图工具漏洞泄露NTLM哈希、智能体仿冒日增200+:AI安全的三场“攻防战”》
人工智能·安全·ai·金融·大模型·政务·合规
技术路线图2 小时前
教学智慧的数字围城:当专业积累遭遇人工智能认知屏蔽
人工智能·搜索引擎
广州创科水利2 小时前
广州创科:以硬核科技与全栈能力,守护边坡安全监测防线
大数据·网络·人工智能
kishu_iOS&AI2 小时前
NLP - Transformer原理解析
人工智能·自然语言处理·transformer
啦啦啦_99992 小时前
2. PyTorch框架
人工智能·pytorch·python
木雷坞2 小时前
AI Coding Agent 工具链部署:MCP Server、Docker Gateway 和镜像预检
人工智能·容器