【保姆级教程】10分钟把手机变成AI Agent:自动刷课、回消息,学不会我“退网”!

大家好,我是LucianaiB。

今天,我将带你一步步部署属于你自己的 AI 手机 。别以为这很难,跟着我的节奏,10分钟就能搞定。如果你还是学不会,那我就真的"退网"好了!

此前,开源社区涌现出的 Open-AutoGLM 项目引起了广泛关注。很多人误以为配置私有化 AI 手机需要极高的技术门槛,其实只要掌握正确的方法,它比你想象的要简单得多。

无论是自动刷课、批量处理信息,还是在不方便触控时进行语音交互,它都能将你的"想象"转化为"行动",真正解放劳动力。

1.为什么需要一个AI手机?

在快节奏的生活中,我们总是希望把重复、繁琐的工作交给机器。开源 AI 手机的出现,让这种想象成为了现实。

  • 大学生:它可以帮你"代劳"那些枯燥的网课,甚至自动签到。
  • 生活达人:做饭、运动双手不便时,它能帮你自动回复消息、刷短视频。
  • 极客:自动进行 App UI 测试,批量处理数据。

这不仅是解放双手,更是为生活增添了无限可能。

演示效果(懒人自动刷抖音):

"AI手机的本质,不是在手机里装一个聊天机器人,而是让手机具备'理解意图并自动执行'的代理能力(Agentic Capability)。"

2.前置环境配置

本文章为开源的保姆级安装教程:github.com/zai-org/Ope...

所谓"工欲善其事,必先利其器"。在开始部署之前,我们需要准备好四大件:GLM API、Python环境、ADB工具和配置安卓环境。

3.Glm API

这是AI手机的"大脑",负责思考和决策。

点击链接注册:www.bigmodel.cn/glm-coding?...

打开Glm API Key:bigmodel.cn/usercenter/...

右上角新建一个 API Key,然后记住即可。

Python

访问 Python 官网下载页:www.python.org/downloads/,页面顶部会有"Download Python 3.x.x"按钮,自动匹配你的系统(Windows/macOS/Linux),点击即可下载安装包。(最好安装3.12以上版本)

查看你的Python版本号

Plain 复制代码
python --version

为了避免污染全局环境,强烈建议创建一个虚拟环境。你可以使用以下代码创建一个独立的Python环境:

Python 复制代码
# create_env.py
import sys
import subprocess
import venv
 
def create_virtual_env(path="venv"):
    """
    创建Python虚拟环境,隔离项目依赖
    """
    print(f"正在创建虚拟环境于: {path}...")
    try:
        venv.create(path, with_pip=True)
        print("✅ 虚拟环境创建成功!")
        print(f"👉 激活方式:")
        if sys.platform == "win32":
            print(f"   .\\{path}\\Scripts\\activate")
        else:
            print(f"   source {path}/bin/activate")
    except Exception as e:
        print(f"❌ 创建失败: {e}")
 
if __name__ == "__main__":
    create_virtual_env("autoglm_env")

ABD

这个的作用就是是电脑可以控制手机。

Windows用户,直接下载ABD工具压缩包,然后解压并加入系统环境变量即可。

下载地址:

dl.google.com/android/rep...

如何设置环境变量呢?

首先,找到电脑的**「高级系统设置」**。其次,点「环境变量 」,找到「Path 」变量,编辑Path变量,点「新建」创建一个新变量,把你的ABD工具压缩包地址添加进来就可以了。

之后,陆续点「确定」,保存更改,关闭页面。

安卓环境

我们的手机需要打开开发者模式,手机才可以接受电脑的连接。

让手机允许被电脑控制:

1.进入手机"设置" -> "关于手机"。

2.连续狂点"版本号"7次,直到提示"您已处于开发者模式"。

3.返回设置主页,找到"开发者选项",打开"USB调试"。

4.用数据线连接手机和电脑,手机端弹窗一律点"允许"。

调试检查脚本: 为了确保ADB配置成功,你可以保存以下代码为 check_adb.py 并运行,它会自动检测ADB是否可用并列出连接设备。

Python 复制代码
import subprocess
import sys
 
def check_adb():
    """
    检查ADB环境是否配置正确,并列出已连接设备
    """
    try:
        # 尝试获取ADB版本
        version_result = subprocess.run(['adb', 'version'], capture_output=True, text=True, encoding='utf-8')
        if version_result.returncode == 0:
            print("✅ ADB 环境检测通过")
            print(version_result.stdout)
        else:
            print("❌ 未找到ADB命令,请检查环境变量配置")
            sys.exit(1)
            
        # 尝试获取连接设备列表
        devices_result = subprocess.run(['adb', 'devices'], capture_output=True, text=True, encoding='utf-8')
        print("--- 当前已连接设备 ---")
        print(devices_result.stdout)
        
        if "device" not in devices_result.stdout:
            print("⚠️ 警告:未检测到已授权的手机设备,请检查USB连接。")
            
    except FileNotFoundError:
        print("❌ 错误:系统找不到ADB程序。")
 
if __name__ == "__main__":
    check_adb()

⚡ 部署与实战:两种方式任选

环境搞定后,我们分"懒人版"和"保姆版"两种方式来部署。如果你是老手,直接看懒人版;如果你是新手,建议仔细阅读保姆版。

系统架构原理解析

在开始之前,我们先了解一下Open-AutoGLM是如何工作的。这有助于你后续排查问题。

它本质上是一个 Agent(智能体) 循环:

  1. 感知:通过ADB截图,获取手机当前画面。
  2. 思考:将截图传给GLM-4大模型,告诉它"我想刷抖音",让模型分析当前该点哪里。
  3. 行动:模型返回坐标(如:x=500, y=1000,点击),Python脚本通过ADB执行点击。
  4. 反馈:再次截图,确认操作是否成功。

懒人版快速安装

使用Claude Code到你创建项目的位置。(没有Claude Code的,可以网上搜索下载一个)

打开配置 GLM Coding Plan 后,可以看到使用的是glm-4.7。

输入以下提示词,快速部署本项目。

Plain 复制代码
访问文档,为我安装 AutoGLM
https://raw.githubusercontent.com/zai-org/Open-AutoGLM/refs/heads/main/README.md
我是windows电脑,我的python在:D:\Miniconda\python.exe

AI 会自动帮你处理依赖安装和配置,你只需要坐享其成。

保姆级教程安装

1.下载到本地

把项目 git 或者直接在源码下载压缩包,然后解压。

开源地址:

github.com/zai-org/Ope...

需要安装依赖

Plain 复制代码
pip install -r requirements.txt 
pip install -e .

2.手机和电脑连接

接下来,用USB数据线将手机链接到电脑,然后在命令行里输入:

Plain 复制代码
adb devices

如果连接成功,你会看到这样的提示。

首次连接,手机上会出现这样一段提示,点「允许」即可。

如果出现下面的需要选择USB网络共享

3.使用AI手机

直接用cmd打开到文件夹,并且输入下面的指令

Markdown 复制代码
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "your-bigmodel-api-key" "任务"

这里需要把

your-bigmodel-api-key 换为你直接得到的 Glm API

任务 换为你直接得到的 具体的任务

下面是我实际使用的示例,所有过程,0接管,全自动。。

常见问题

原因:目标设备上未安装 ADB Keyboard,导致系统检查的第3步失败。

解决方案:

下载安装到手机:github.com/senzhk/ADBK...

启用键盘:在手机上进入"设置" > "系统" > "语言和输入" > "虚拟键盘",找到并开启"ADB Keyboard"。建议同时将其切换为当前输入法。

技术栈对比:传统自动化 vs AI Agent

为了让你更直观地理解 Open-AutoGLM 的优势,我们将其与传统的手机自动化工具(如按键精灵、Auto.js)进行对比。

维度 传统自动化 Open-AutoGLM (AI Agent)
核心逻辑 固定坐标、图像匹配 视觉理解、意图推理
适配性 差,UI变动需重写脚本 强,像人一样适应界面变化
开发门槛 中,需掌握编程/脚本 低,自然语言描述任务
场景扩展 局限,单一任务重复 广泛,支持模糊指令
运行成本 本地运行,成本为0 需调用API,产生Token费用
不确定性 低,一旦写死非常稳定 中,依赖大模型推理准确性

总结来说 :传统工具适合高重复、确定性强 的流水线工作;而 AI 手机适合非标准化、需要理解能力的复杂任务。

写在最后

在深入体验并拆解了 Open-AutoGLM 项目的全套技术栈后,我想从客观的角度为大家做一个深度的总结。这不仅仅是一个工具,更是一扇通向未来的窗,但我们必须清醒地看到它的双面性。

关于这套工具栈的缺点:

首先,稳定性是目前最大的短板 。由于它极度依赖云端大模型的实时推理,网络延迟和API的响应速度会直接影响操作手感。有时候你会发现,它明明识别到了按钮,但点击坐标却发生了偏移,这是因为模型在视觉预测上存在一定的概率误差。其次,硬件依赖较强 ,必须通过数据线连接ADB(虽然也有无线方案,但延迟更高),这意味着你的手机被"拴"在了电脑旁,无法实现真正的随身远程操控,这在移动场景下略显尴尬。再者,使用成本并非为零 ,虽然新用户有福利,但高频使用产生的API Token费用积少成多,对于仅仅是想用来挂机刷视频的用户来说,性价比可能不如传统的脚本。最后,隐私风险不容忽视,为了理解屏幕,手机截图需要上传至云端分析,如果你的屏幕上有敏感信息(如密码、聊天记录),这就存在潜在的数据泄露风险。

关于这套工具栈的优点:

然而,瑕不掩瑜,它的优点是颠覆性的。最核心的优势在于通用性与泛化能力 。传统脚本换个APP分辨率就失效了,但 AutoGLM 靠的是"理解"而非死记硬背,它能像人类一样看懂界面布局,这意味着你不需要为每个APP写专门的代码,一套逻辑通吃大部分应用。其次,它极大地降低了自动化的门槛 。你不需要懂编程,不需要学像素点判断,只需要说出"帮我把朋友圈最新的十条点赞",剩下的交给AI。这种自然语言交互的方式,真正实现了"所想即所得"。此外,它具备上下文记忆与逻辑推理能力,不仅能执行动作,还能根据上一步的结果调整下一步策略,比如"如果弹出登录框则输入密码,否则跳过",这种逻辑判断是传统脚本难以低成本实现的。

总体来说:

我认为,Open-AutoGLM 所代表的 AI Agent 技术栈,其优点远远大于缺点。目前的连接延迟和推理误差,随着模型算力的提升和边缘计算的发展,终将得到解决。而它所展现出的"理解意图并操作物理设备"的能力,正是通往通用人工智能(AGI)的关键一步。

强烈推荐大家,特别是技术爱好者和效率极客,去尝试部署和使用这套工具。不要把它仅仅看作一个"刷课神器",它是一个极佳的学习样本,能让你直观地感受到大模型是如何与操作系统交互的。在这个过程中,你不仅解放了双手,更升级了自己的思维。未来的 computing,一定是 AI Agent 的时代,现在入局,就是抢占未来。

你打算用AI手机用来干什么呢,留下你的想法,然后勇敢的去实践。

相关推荐
Mr -老鬼13 小时前
功能需求对前后端技术选型的横向建议
开发语言·前端·后端·前端框架
IT=>小脑虎13 小时前
Go语言零基础小白学习知识点【基础版详解】
开发语言·后端·学习·golang
Eric_见嘉13 小时前
NestJS 🧑‍🍳 厨子必修课(九):API 文档 Swagger
前端·后端·nestjs
a程序小傲14 小时前
小红书Java面试被问:TCC事务的悬挂、空回滚问题解决方案
java·开发语言·人工智能·后端·python·面试·职场和发展
短剑重铸之日14 小时前
《SpringBoot4.0初识》第五篇:实战代码
java·后端·spring·springboot4.0
jump_jump14 小时前
SaaS 时代已死,SaaS 时代已来
前端·后端·架构
a努力。14 小时前
国家电网Java面试被问:最小生成树的Kruskal和Prim算法
java·后端·算法·postgresql·面试·linq
superman超哥14 小时前
Rust Vec的内存布局与扩容策略:动态数组的高效实现
开发语言·后端·rust·动态数组·内存布局·rust vec·扩容策略
源代码•宸15 小时前
Leetcode—1929. 数组串联&&Q1. 数组串联【简单】
经验分享·后端·算法·leetcode·go