最近一段时间"智谱AI"的动作不少呀。
前一阵的 GLM-4.6 几乎成为公认的 Claude Code 最佳平替模型,前两天分享的 GLM-4.6V 则开实现了图文混排输入输出。
今天,我们来看看刚开源的 Phone Use 模型 AutoGLM 效果如何。
AutoGLM
今天的主角有些朋友可能不太了解,我们先简单介绍下。
Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。
框架通过 ADB(Android Debug Bridge) 来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。

由于 Phone Agent 会操作个人手机,而手机又是非常重要的私人物品,所以,大家实践前,请仔细了解以下内容:
重要提醒:Phone Agent 会直接控制你的手机,涉及隐私与安全。仅限研究学习使用,严禁用于自动化下单、爬取数据等行为。Phone Use 技术仍在早期阶段,请务必在了解风险后谨慎操作。
下面就是实际的体验过程了。
准备第三方模型服务
AutoGLM 支持自建模型,也支持第三方模型。
为了更快的体验到效果,我们直接采用官方搭建的魔搭服务。
注册、登录后,打开以下链接。
点击下图位置查看代码范例。

保存如图红框内的api_key,后续要用。

选择魔搭平台是因为注册后每天都有 2000 额度。

实操记录
检出 AutoGLM 源码
直接使用 SOLO 检出 Git 仓库。
地址:https://codeload.github.com/zai-org/Open-AutoGLM/zip/refs/heads/main。

检出后打开项目源码,后续操作可在 SOLO 终端下直接进行。
同一界面操作"命令"+"文件管理",还是挺方便的。
尤其是安装过程如果出现问题,可以直接在终端一键发给 AI 就能解决。
安装 Python 环境
过程不在赘述,官方建议 Python 3.10 及以上版本,尽量保证。
安装 ADB
第1步 ,下载 ADB。
地址:https://developer.android.com/tools/releases/platform-tools?hl=zh-cn。
第2步,解压。

第3步,将解压路径配置到 Path 环境变量中。下图是 Windows 配置方式。

第4步 ,直接在 SOLO 终端中输入adb --version验证是否配置成功。
如下图,即表明已配置成功。

此处需要注意,Windows 下可能需要新开终端,或者重启 TRAE 的情况。
手机设置 USB 调试
第1步,启用开发者模式。
通常启用方法是,找到 设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示"开发者模式已启用"。
不同手机会有些许差别,如果找不到,可以上网搜索一下相关型号教程。
第2步,在"开发人员选项"中打开"USB调试"。

第3步,验证。
直接输入adb devices,如下图显示"设备ID"和"device"则为通过。

如果如下图显示 unauthorized,则表明"USB调试"授权未确认。

需要重新打开 "USB调试",或者插拔 USB 线,并确认同意授权。

安装 ADB Keyboard
ADB Keyboard 是一款虚拟键盘,它可以让 adb 向应用中输入文本。
第1步 ,下载 ADB Keyboard。
地址:https://github.com/senzhk/ADBKeyBoard/blob/master/ADBKeyboard.apk。
第2步,下载后,需要在文件管理中找到并进行安装。
注意:国内手机安装过程由于非手机应用商店渠道,安装过程比较曲折。
比如我的荣耀手机,底部两个按钮都不行,应该点击中间的"允许本次安装"。

第3步 ,安装后,需要到 设置-输入法 或者 设置-键盘列表 中启用 ADB Keyboard 才能生效。
荣耀手机设置界面如下。

示例调用
第1步,进入项目根路径,安装项目依赖。
erlang
pip install -r requirements.txt
pip install -e .
第2步,在项目根路径,执行下面的脚本。
bash
# 使用 ModelScope
python main.py --base-url https://api-inference.modelscope.cn/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "your-modelscope-api-key" "打开美团,帮我下单一份正新鸡排"
为了大家更加直观的体会,给大家看下操作录屏(4倍速播放)。

下面是脚本执行的日志记录。

整体过程还是比较流畅的。
常见问题
我碰到的问题在上面的过程中已经同步介绍了,还有一些官网整理的其它问题我放在下面了,方便快速查找解决。
设备未找到
尝试通过重启 ADB 服务来解决:
vbscript
adb kill-server
adb start-server
adb devices
如果仍然无法识别,请检查:
- USB 调试是否已开启
- 数据线是否支持数据传输(部分数据线仅支持充电)
- 手机上弹出的授权框是否已点击「允许」
- 尝试更换 USB 接口或数据线
能打开应用,但无法点击
部分机型需要同时开启两个调试选项才能正常使用:
- USB 调试
- USB 调试(安全设置)
请在 设置 → 开发者选项 中检查这两个选项是否都已启用。
文本输入不工作
- 确保设备已安装
ADB Keyboard - 在设置 > 系统 > 语言和输入法 > 虚拟键盘 中启用
- Agent 会在需要输入时自动切换到 ADB Keyboard
截图失败(黑屏)
这通常意味着应用正在显示敏感页面(支付、密码、银行类应用)。Agent 会自动检测并请求人工接管。
windows 编码异常问题
报错信息形如 UnicodeEncodeError gbk code
解决办法: 在运行代码的命令前面加上环境变量: PYTHONIOENCODING=utf-8
交互模式非TTY环境无法使用
报错形如: EOF when reading a line
解决办法: 使用非交互模式直接指定任务, 或者切换到 TTY 模式的终端应用。
结语
当然,遇到 UI 特别"个性"的店铺,AI 还是会卡壳------但它已经能稳稳帮我搜鸡排、加购物车了。
从"一句话"到"自动操作",AI 不再只是写文案、答问题的工具,而是真正开始替我们动手干活,实实在在地提升生活效率了。