大家好,我是苍一,一个干了13年的后端开发,正在探索AI编程,从产品到开发的全生命周期最佳实践,如果您感兴趣,欢迎关注👇,看我如何自我革命。
本地视觉 Agent,不看代码只看屏幕
Mano-P 是一个面向图形界面的视觉-语言-动作模型。它的工作原理很直接:截取屏幕画面,通过视觉理解定位界面上的按钮、输入框、菜单等元素,然后执行相应的点击、输入、拖拽操作。
和常见的浏览器自动化方案不同,这个模型不依赖 Chrome DevTools 协议,也不需要解析页面源码。它纯粹依靠图像识别来完成任务。这意味着它的适用范围不限于网页------Photoshop、Final Cut Pro、Blender 这类桌面软件同样可以操控。
训练方面使用了 6 万条 GUI 操作轨迹,覆盖超过 300 万个动作步骤,数据集包含了主流桌面应用和 Web 操作场景。
在 M4 Pro 上的实际性能
量化后的 4B 模型在 Apple M4 Pro 芯片上跑出了 476 tokens/s 的预填充速度和 76 tokens/s 的解码速度,峰值内存占用 4.3GB。这个参数量级的模型在计算机使用任务上的准确率和云端大模型接近,但所有计算都在本地完成,截图和操作数据不会离开设备。
模型支持离线模式下的长任务自主规划。遇到复杂的多步骤业务流程,它可以不联网完成决策制定和错误纠正。
1️⃣ 安装和使用
通过 Homebrew 安装:
go
brew tap HanningWang/tap brew install mano-cua
命令行直接运行:
go
mano-cua run "打开微信告诉xxx会议延期"
Cider:让 MLX 模型跑得更快的加速框架
Mano-P 能达到这个速度,底层依赖的是团队开发的 Cider 加速框架。
Apple 的 MLX 框架目前支持 W4A16、W8A16 等权重量化模式,但缺少激活量化。Cider 补上了这个缺口,通过调用 Metal 4 API 在 Apple GPU 上实现了硬件加速的 INT8 TensorOps 计算。简单说就是同时量化权重和激活值,减少计算量和内存带宽压力。
2️⃣ 加速效果
W8A8 模式下,各算子速度相比 MLX 原生提升 1.4 到 1.9 倍,具体取决于 batch size。
以几个常见模型为例:
• Qwen3-8B:FP16 预填充 1695 tokens/s,W8A8 加速后 2531 tokens/s,提升约 49%
• Llama3-8B:从 1727 提升到 2520 tokens/s,提升约 46%
• Qwen3-VL-2B:chunked prefill 场景端到端加速 57% 到 61%
3️⃣ 接入方式
一行代码就能让任何 MLX 模型获得加速:
go
from cider import convert_model, is_available model, proc = load("path/to/model") if is_available(): convert_model(model)
它会自动判断场景:序列长度大于 1 时走 W8A8 INT8 TensorOps 路径加速预填充,序列长度等于 1 时回退原始权重保证解码质量。不需要手动切换。
Cider 不绑定 Mano-P。只要你的模型跑在 MLX 上------Qwen、Llama、Mistral 都行------都能直接接入。
实际应用场景
4️⃣ 自动化软件测试流水线
用自然语言描述需求后,系统依次完成需求分析、架构设计、代码生成和本地部署。然后进入多层级测试:先跑 API 接口测试,再用视觉模型检测页面渲染是否正确,最后通过 VLA 模型做端到端的 GUI 自动化测试。
测试失败时自动定位问题、修复代码、重新部署,循环迭代直到通过。整个流程不需要人盯着。
值得注意的是成本结构。在全自动编程流水线中,GUI 测试环节消耗的云端 token 占比超过 59%。API 测试只能验证接口逻辑,但软件到底能不能用,必须有人(或模型)打开界面操作一遍。这个过程需要持续处理截图、定位元素、执行操作、判断结果,推理开销很大。Mano-P 把这部分成本压到了零------不调 API,不上传截图。
5️⃣ 商业视频处理系统
从下发指令开始,自动完成视频生成、上传、分析、剪辑到质量评测。系统自己操作浏览器和剪辑软件,处理文件、调整字幕,最终输出包含主观评价和客观指标的分析报告。
这类场景的共同特点是需要大量截图和界面操作,全部在本地处理,不上传云端。
6️⃣ 和 Claude Computer Use 的对比
Claude 在 OSWorld 基准测试上综合得分 72.1%,Mano-P 为 58.2%。准确率上 Claude 领先,但 Claude 需要调用云端 API,截图和任务数据都要上传。Mano-P 完全在本地运行。
对于有隐私和安全要求的场景------企业内部系统测试、敏感数据自动化处理------端侧方案是更现实的选择。
开源地址
• Mano-P:https://github.com/Mininglamp-AI/Mano-P
• Cider:https://github.com/Mininglamp-AI/cider
团队后续还会开源 Mano-P 的训练方法,帮助开发者用自有数据训练定制化的 GUI Agent 模型。两个项目配合起来,基本覆盖了端侧 AI 从模型到推理加速的核心环节。
如果嫌文章太长、怕后面走丢,可以关注下面的ima知识号,让这篇文章成为你的知识顾问,随时随地等候你的提问。
知识号中内容会以笔记形式分享,可以根据大家反馈和实测情况,实时更新,保证最新方案的稳定、可用。
【ima 知识库】
