文中所涉及的技术、思路和工具仅供以学习交流使用,任何人不得将其用于非法用途以及盈利等目的,否则后果自行承担。
Open-AutoGLM是基于 AutoGLM 的智能手机端助理框架,它能"看懂"屏幕内容,并通过自动化操作完成用户需求。系统利用 ADB 控制设备,结合视觉语言模型进行屏幕感知,再通过智能规划生成并执行操作流程。用户只需一句自然语言指令,例如"打开小红书搜索美食",Phone Agent 即可自动解析意图、识别界面状态、规划动作并完成任务。系统还内置敏感操作确认机制,支持在登录或验证码场景下进行人工接管,同时提供 WiFi 或网络远程调试功能,实现灵活的远程控制与开发。
一、电脑环境的准备
个人推荐使用虚拟环境,我用的是Anaconda (不会还有人不知道什么是Anaconda吧,百度一下)。
1、建议使用 Python 3.10 及以上版本。
2、在左下角搜索框中输入anaconda,就会出现Anaconda PowerShell Prompt,点一下>,,然后在右边点击以管理员身份运行。

3、在打开的anaconda powershell prompt中输入下面指令,创建python=3.10的虚拟环境,创建完成后会提示conda activate autoglm,然后输入conda activate autoglm激活虚拟环境。
powershell
conda create -n autoglm python=3.10
conda activate autoglm
4、下载Open-AutoGLM代码到电脑上,如果电脑上安装过git,可以直接使用下面命令进行克隆下载;
powershell
git clone https://github.com/zai-org/Open-AutoGLM.git
5、如果不知道git是什么,那就点击链接Open-AutoGLM,然后下载压缩包


将下载的压缩包放到一个没有中文的文件路径下,然后解压,这个是我的存放位置E:\auto_GLM\Open-AutoGLM-main。
6 、从刚才打开的anaconda powershell prompt终端中进入我存放Open-AutoGLM的文件夹,然后输入下面代码,安装这个项目python环境。
powershell
pip install -r requirements.txt
pip install -e .

以 Android 设备 - 使用 ADB为例:
7、下载官方 ADB 安装包,并解压到自定义路径
下载路径如下:
Windows版本:https://dl.google.com/android/repository/platform-tools-latest-windows.zip
Mac版本:https://dl.google.com/android/repository/platform-tools-latest-darwin.zip
Linux版本:https://dl.google.com/android/repository/platform-tools-latest-linux.zip
8、配置环境变量
MacOS 配置方法:在 Terminal 或者任何命令行工具里
powershell
# 假设解压后的目录为 ~/Downloads/platform-tools。如果不是请自行调整命令。
export PATH=${PATH}:~/Downloads/platform-tools
Windows 配置方法:可参考 第三方教程 进行配置。
配置环境变量,将adb的存放路径添加进path中,

二、准备手机环境
我这里使用的是安卓手机,所以主要以安卓手机为例,其他手机参考官方教程;
1、 Android 设备,并启用 开发者模式 和 USB 调试
开发者模式启用:通常启用方法是,找到 设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示"开发者模式已启用"。不同手机会有些许差别,如果找不到,可以上网搜索一下教程。
USB 调试启用:启用开发者模式之后,会出现 设置-开发者选项-USB 调试,勾选启用
部分机型在设置开发者选项以后, 可能需要重启设备才能生效. 可以测试一下: 将手机用USB数据线连接到电脑后, adb devices 查看是否有设备信息, 如果没有说明连接失败.

2、查看adb设备,我这里使用的是无线调试,然后记住IP地址和端口

bash
adb connect 192.168.3.12:41641
#显示上面的ip和端口号要更换成自己的
# 验证连接
adb devices
# 应显示:
List of devices attached
192.168.3.12:41641 offline
接下来就可以输入python命令然后控制你的手机了,我这里使用的是智谱 BigModel,对应的
--base-url:https://open.bigmodel.cn/api/paas/v4
--model:autoglm-phone
--apikey:在智谱平台申请你的 API Key
要把这里输对,可别傻乎乎的跟着git上的教程,直接复制它上面这一行指令
bash
python main.py --device-id 192.168.1.100:5555 --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开抖音刷视频"
复制这一行,指定用不了。
我用的是智普的bitmodel,然后是有交互的,所以我在终端中输入的指令是
bash
(autoglm) PS E:\auto_GLM\Open-AutoGLM> python main.py --device-id 192.168.3.12:35719 --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "your-bigmodel-api-key"
连上之后是这样的

接下来就可以输入你的操作了,我输入的是'打开今日头条,跳转到热榜界面'下图是实际跳转的结果,同时终端中也会打印出实时的操作结果。注意只能输入你手机上有的app

好啦,至此操作结束,完美控制手机,你就可以做更多的操作了。