AutoGLM 开源实测:一句话让 AI 帮我点个鸡排

最近一段时间"智谱AI"的动作不少呀。

前一阵的 GLM-4.6 几乎成为公认的 Claude Code 最佳平替模型,前两天分享的 GLM-4.6V 则开实现了图文混排输入输出。

今天,我们来看看刚开源的 Phone Use 模型 AutoGLM 效果如何。

AutoGLM

今天的主角有些朋友可能不太了解,我们先简单介绍下。

Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。

框架通过 ADB(Android Debug Bridge) 来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。

由于 Phone Agent 会操作个人手机,而手机又是非常重要的私人物品,所以,大家实践前,请仔细了解以下内容:

重要提醒:Phone Agent 会直接控制你的手机,涉及隐私与安全。仅限研究学习使用,严禁用于自动化下单、爬取数据等行为。Phone Use 技术仍在早期阶段,请务必在了解风险后谨慎操作。

下面就是实际的体验过程了。

准备第三方模型服务

AutoGLM 支持自建模型,也支持第三方模型。

为了更快的体验到效果,我们直接采用官方搭建的魔搭服务。

注册、登录后,打开以下链接。

modelscope.cn/models/Zhip...

点击下图位置查看代码范例。

保存如图红框内的api_key,后续要用。

选择魔搭平台是因为注册后每天都有 2000 额度。

实操记录

检出 AutoGLM 源码

直接使用 SOLO 检出 Git 仓库。

地址:https://codeload.github.com/zai-org/Open-AutoGLM/zip/refs/heads/main

检出后打开项目源码,后续操作可在 SOLO 终端下直接进行。

同一界面操作"命令"+"文件管理",还是挺方便的。

尤其是安装过程如果出现问题,可以直接在终端一键发给 AI 就能解决。

安装 Python 环境

过程不在赘述,官方建议 Python 3.10 及以上版本,尽量保证。

安装 ADB

第1步 ,下载 ADB

地址:https://developer.android.com/tools/releases/platform-tools?hl=zh-cn

第2步,解压。

第3步,将解压路径配置到 Path 环境变量中。下图是 Windows 配置方式。

第4步 ,直接在 SOLO 终端中输入adb --version验证是否配置成功。

如下图,即表明已配置成功。

此处需要注意,Windows 下可能需要新开终端,或者重启 TRAE 的情况。

手机设置 USB 调试

第1步,启用开发者模式。

通常启用方法是,找到 设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示"开发者模式已启用"。

不同手机会有些许差别,如果找不到,可以上网搜索一下相关型号教程。

第2步,在"开发人员选项"中打开"USB调试"。

第3步,验证。

直接输入adb devices,如下图显示"设备ID"和"device"则为通过。

如果如下图显示 unauthorized,则表明"USB调试"授权未确认。

需要重新打开 "USB调试",或者插拔 USB 线,并确认同意授权。

安装 ADB Keyboard

ADB Keyboard 是一款虚拟键盘,它可以让 adb 向应用中输入文本。

第1步 ,下载 ADB Keyboard

地址:https://github.com/senzhk/ADBKeyBoard/blob/master/ADBKeyboard.apk

第2步,下载后,需要在文件管理中找到并进行安装。

注意:国内手机安装过程由于非手机应用商店渠道,安装过程比较曲折。

比如我的荣耀手机,底部两个按钮都不行,应该点击中间的"允许本次安装"。

第3步 ,安装后,需要到 设置-输入法 或者 设置-键盘列表 中启用 ADB Keyboard 才能生效。

荣耀手机设置界面如下。

示例调用

第1步,进入项目根路径,安装项目依赖。

erlang 复制代码
pip install -r requirements.txt
pip install -e .

第2步,在项目根路径,执行下面的脚本。

bash 复制代码
# 使用 ModelScope
python main.py --base-url https://api-inference.modelscope.cn/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "your-modelscope-api-key" "打开美团,帮我下单一份正新鸡排"

为了大家更加直观的体会,给大家看下操作录屏(4倍速播放)。

下面是脚本执行的日志记录。

整体过程还是比较流畅的。

常见问题

我碰到的问题在上面的过程中已经同步介绍了,还有一些官网整理的其它问题我放在下面了,方便快速查找解决。

设备未找到

尝试通过重启 ADB 服务来解决:

vbscript 复制代码
adb kill-server
adb start-server
adb devices

如果仍然无法识别,请检查:

  1. USB 调试是否已开启
  2. 数据线是否支持数据传输(部分数据线仅支持充电)
  3. 手机上弹出的授权框是否已点击「允许」
  4. 尝试更换 USB 接口或数据线

能打开应用,但无法点击

部分机型需要同时开启两个调试选项才能正常使用:

  • USB 调试
  • USB 调试(安全设置)

请在 设置 → 开发者选项 中检查这两个选项是否都已启用。

文本输入不工作

  1. 确保设备已安装 ADB Keyboard
  2. 在设置 > 系统 > 语言和输入法 > 虚拟键盘 中启用
  3. Agent 会在需要输入时自动切换到 ADB Keyboard

截图失败(黑屏)

这通常意味着应用正在显示敏感页面(支付、密码、银行类应用)。Agent 会自动检测并请求人工接管。

windows 编码异常问题

报错信息形如 UnicodeEncodeError gbk code

解决办法: 在运行代码的命令前面加上环境变量: PYTHONIOENCODING=utf-8

交互模式非TTY环境无法使用

报错形如: EOF when reading a line

解决办法: 使用非交互模式直接指定任务, 或者切换到 TTY 模式的终端应用。

结语

当然,遇到 UI 特别"个性"的店铺,AI 还是会卡壳------但它已经能稳稳帮我搜鸡排、加购物车了。

从"一句话"到"自动操作",AI 不再只是写文案、答问题的工具,而是真正开始替我们动手干活,实实在在地提升生活效率了。

相关推荐
2022.11.7始学前端2 小时前
n8n第九节 使用LangChain与Gemini构建带对话记忆的AI助手
java·人工智能·n8n
LYFlied2 小时前
在AI时代,前端开发者如何构建全栈开发视野与核心竞争力
前端·人工智能·后端·ai·全栈
core5123 小时前
深度解析DeepSeek-R1中GRPO强化学习算法
人工智能·算法·机器学习·deepseek·grpo
Surpass余sheng军3 小时前
AI 时代下的网关技术选型
人工智能·经验分享·分布式·后端·学习·架构
说私域3 小时前
基于开源AI智能名片链动2+1模式S2B2C商城小程序源码的所有物服务创新研究
人工智能
桃花键神3 小时前
openFuyao在AI推理与大数据场景中的加速方案:技术特性与实践探索
大数据·人工智能
wb043072013 小时前
大模型(LLM)及其应用生态中的关键技术栈
人工智能
颜颜yan_3 小时前
DevUI + Vue 3 入门实战教程:从零构建AI对话应用
前端·vue.js·人工智能
Coding茶水间3 小时前
基于深度学习的无人机视角检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉