你的 Mac 就是一个 AI Agent,4B 模型本地操控电脑。

前段时间介绍了一个开源的 Skill,可以让 Agent 控制你的 Mac。

纯视觉理解桌面上的任何软件界面,像人一样去操作,而且全程跑在你自己电脑上,数据不上云。

继 Skill 开源之后,最近他的端侧模型也终于开源了。

配套一起开源的还有一个叫 Cider 的推理加速框架,专门给 Apple Silicon 上的 MLX 模型做加速。

两个项目加在一起,基本把端侧 AI 从能跑推到了跑得快、跑得好。

后续这个团队还会开源 mano-p 模型的训练方法,帮助开发者利用自己的数据训练定制化 GUI Agent 模型。

01、一个能在 Mac 本地跑的 GUI Agent

Mano-P 是一个 GUI-VLA 模型,说白了就是用纯视觉的方式理解和操作图形界面。

它不依赖 CDP 协议,也不解析 HTML,直接看屏幕截图就能定位界面元素、执行点击输入、完成复杂操作。

它不限于浏览器场景,桌面软件、专业工具、3D 应用都能操控。

训练数据方面,基于 6 万条 GUI 轨迹数据,覆盖 300 万+动作,涵盖主流桌面和 Web 操作场景。

性能数据也比较夸张。

4B 量化模型在 Apple M4 Pro 上实现 476 tokens/s 预填充、76 tokens/s 解码,峰值内存只有 4.3GB。

一个 4B 的小模型,在 CUA 任务上实现了和云端大模型相当的准确率,而且完全在本地运行,所有截图和任务数据不出设备。

支持离线长任务自主规划,复杂业务流程可以完全不联网就完成自主决策和纠错。

安装也很简单,一行命令:

bash 复制代码
brew tap HanningWang/tap
brew install mano-cua

装完就能用:

arduino 复制代码
mano-cua run "打开微信告诉xxx会议延期"

当然也支持 Skill 的方式接入。

02、Cider 让端侧模型跑得更快的加速框架

Mano-P 能在 Mac 上跑得这么快,背后靠的是 Cider。

Cider 是团队自研的推理加速框架,基于 Apple MLX 生态。

它补齐了 MLX 原生框架缺失的 W8A8 和 W4A8 量化计算能力。

MLX 目前支持 W4A16、W8A16 这些权重量化模式,但缺少激活量化。

Cider 通过调用 Apple 底层 Metal 4 API,首次在 Apple GPU 上实现了硬件加速的 INT8 TensorOps 计算。

实测数据:

W8A8 模式下,算子速度比 MLX 原生提升 1.4x 到 1.9x,具体取决于 batch size。

拿 Qwen3-8B 举例,FP16 原生预填充 1695 tokens/s,经过 Cider 的 W8A8 加速后能到 2531 tokens/s,接近 1.5 倍。

Llama3-8B 也类似,从 1727 提到 2520 tokens/s。

对于 Qwen3-VL-2B 这样的视觉语言模型,chunked prefill 场景中端到端预填充加速 57% 到 61%。

接入方式极其简单,一行代码就能把任何 MLX 模型的 Linear 层替换成 Cider 加速版本:

python 复制代码
from cider import convert_model, is_available
model, proc = load("path/to/model")


if is_available():
  convert_model(model)
  # CiderLinear auto-detects:
  # seq_len > 1 - W8A8 INT8 TensorOps (faster prefill)
  # seq_len == 1 - INT8 MV kernel (near-native decode speed)
else:
  pass # Falls back to standard MLX inference on M4

它会自动判断:seq_len > 1 用 W8A8 INT8 TensorOps 加速预填充,seq_len == 1 回退原始权重保证解码最优。

不需要手动切换。

Cider 不只是给 Mano-P 用的。Qwen、Llama、Mistral,只要你的模型跑在 MLX 上,都能用 Cider 加速。

03、用 Mano-P 能干什么

全自动化应用构建流程。

你用自然语言描述需求,系统依次完成需求澄清、架构设计、代码生成、本地部署。

然后开始多层级测试,先是 API 接口测试,再是 LLM 页面视觉检测,最后通过 VLA 模型做端到端的 GUI 自动化测试。

测试没通过的话,自动定位问题、修复代码、重新部署,循环迭代直到全部通过。

整个流程不需要人工干预。

再比如,还能做商业视频智能系统,从下发指令开始,自动完成视频生成、上传、分析、剪辑到二次评测。

系统自己操作网页和剪辑软件,处理文件、修改字幕,最后生成包含主观评价和客观指标的分析报告。

这些场景的核心特点是一样的:大量截图和界面操作数据,全部在本地处理,不上传到任何云端。

从成本角度看这件事更有意思。

全自动编程流水线里,GUI 测试消耗的云端 token 占比超过 59%。

API 测试只能验证接口是否正常,但软件是否真的可用,得有人打开界面操作一遍才知道。

这个过程天然依赖多模态理解,模型要持续处理截图、定位元素、执行操作、判断结果,推理消耗非常大。

Mano-P 把这部分开销直接归零,不调 API,不传截图,不花一分钱。

和 Claude Computer Use 对比一下:

Claude 在 OSWorld 上的综合成绩确实更高(72.1% vs Mano-P 58.2%),但 Claude 需要云端 API 调用,你的截图和任务数据都要上传。

Mano-P 完全在本地运行,数据不出设备。

如果你的场景对隐私和安全有要求,比如企业内部系统测试、处理敏感数据的自动化流程,端侧方案是目前更现实的选择。

bash 复制代码
开源地址:
Mano-P:https://github.com/Mininglamp-AI/Mano-P
Cider:https://github.com/Mininglamp-AI/cider

Mano-P 证明了端侧 GUI Agent 的应用价值,Cider 则解决了端侧 AI 落地最底层的问题:如何让模型在 Mac 上更快、更省内存、更接近真实可用。

从 Mano-P 到 Cider,明略科技正在建设端侧 AI 、私有化AI的基础设施能力。

相关推荐
铁皮哥3 小时前
【后端/Agent 开发】给你的项目配置一套 .claude/ 工作流:别再裸用 Claude Code 了!
java·windows·python·spring·github·maven·生活
Resistance丶未来5 小时前
Agency-Agents 多智能体协作系统落地指南
python·大模型·nlp·github·copilot·claude·gemini
輕華5 小时前
YOLOv5 实战:从 GitHub 拉取到自定义数据集训练
yolo·github
海域云-罗鹏8 小时前
豆包开启付费订阅,想白嫖越来越难了,企业不如部署自己的算力服务器
服务器·人工智能·github
遁神银灵子8 小时前
OMO(oh-my-openagents)插件在OpenCode Desktop v1.4.33以上版本失效问题研究
github
码流怪侠10 小时前
【GitHub】TextGen:开源本地大模型运行平台的终极解决方案
python·程序员·github
小雨青年10 小时前
GitHub Copilot Commit Message 生成与自定义配置优化指南
人工智能·github·copilot
无限进步_10 小时前
【C++】AVL树完全解析:从平衡因子到四种旋转
c语言·开发语言·数据结构·c++·后端·算法·github
华万通信king11 小时前
2026 年 GitHub AI 趋势周报:Skills 生态崛起,Agent 框架去中心化
人工智能·去中心化·github