本期开源项目地址:https://github.com/zai-org/Open-AutoGLM

2025年12月,手机圈经历了一场从"豆包手机"的技术封锁,到智谱 AutoGLM 开源破局的过山车。这不仅是产品的迭代,更是一场关于流量分发权 与AI 代理(Agent)未来的深度博弈。
一、 豆包手机:被大厂围剿的"技术核试验"
豆包手机助手预览版发布后,凭借系统级 AI 引擎 、虚拟 AI 屏幕 (后台静默操作)和云端协同三大技术,实现了"一句话调动手机功能",引发全网抢购。
然而,这场创新迅速遭遇了"流量护城河"的反击。淘宝、美团、支付宝等主流 APP 随即出现登录异常或封号。
核心冲突:商业模式的重构
传统互联网依赖"流量漏斗"(点开APP→看广告→下单),而 AI 手机实现了"直连需求"(用户说话→AI 执行)。正如周鸿祎所言,当 AI 帮用户跳过了广告和首页,APP 的核心 KPI 面临失效。这是一场存量利益与新技术形态的决战。
二、 AutoGLM:开源破局,定义 AI 手机的"安卓时刻"
在封闭生态的博弈胶着之时,智谱 AI 于 12 月 9 日开源 AutoGLM,将"手机操作"能力变成了全行业共享的基础设施。
什么是 AutoGLM?
这就好比给大模型装上了"手"和"眼"。它基于 visual-9b 模型,采用"Planner(规划)+ Grounder(定位)"架构,能像人一样看懂屏幕并模拟点击、滑动、输入。目前已支持微信、淘宝、美团等 50+ 款高频 APP。
AutoGLM vs 豆包手机:技术路线对比
| 维度 | 豆包手机助手 | 智谱 AutoGLM (开源版) |
|---|---|---|
| 部署方式 | 云端推理为主 | 支持本地部署 (PC/端侧) |
| 数据隐私 | 需上传数据,存在黑盒 | 数据不出设备,零上传 |
| 生态封闭性 | 厂商封闭生态 | MIT/Apache-2.0 双协议开源 |
| 应用支持 | 官方指定适配 | 开发者可自由扩展垂直场景 |
| 抗风险能力 | 易受大厂协议封锁 | 模拟人类物理操作,更难被判定违规 |
三、 实战指引:如何拥有你的 AutoGLM
AutoGLM 的开源极大地降低了技术门槛,但对硬件仍有一定要求。
1. 硬件门槛
-
显卡 (GPU): 显存至少 8GB,推荐 16GB 以上(运行 9B 模型)。
-
设备: Android 7.0+ 手机或模拟器(需开启 USB 调试)。
- 部署极简流
无需从零编写复杂的视觉识别算法,开发者只需三步即可在本地跑通:
-
环境配置: Clone GitHub 仓库并安装依赖。
-
服务启动: 使用
vllm启动autoglm-phone-9b模型服务。 -
连接控制: 通过 ADB 连接手机,即可用 Python 脚本发送指令。
- 示例指令:
agent.run("打开淘宝搜索无线耳机,然后去京东比价")
- 示例指令:
(详细代码与文档请访问 GitHub 仓库:zai-org/Open-AutoGLM)
四、 行业启示:从"平台闭环"到"直连需求"
AutoGLM 的开源标志着 AI Agent 正在经历它的"安卓时刻":
-
对开发者: 无需造轮子,可直接基于框架开发垂直领域的"AI 助理"(如专门抢票、专门比价的 Agent)。
-
对手机厂商: 中小厂商无需自研底层模型,即可快速集成 AI 操控能力,甚至实现数据的私有化部署,主打隐私安全牌。
-
对商业模式: 未来的 APP 可能需要主动提供 API 给 AI 调用,或者接受"混合模式"------用户想逛街时找 APP,想办事时找 AI。
总结
豆包撕开了旧秩序的裂缝,而 AutoGLM 则递给了所有人一把铲子。智谱的开源策略将技术从"巨头垄断"推向了"大众共创"。未来已来,这一次,手机真的开始"听"你的了。