普通手机使用Open-AutoGLM 感受豆包AI 手机的体验

一、GitHub 链接及介绍

  1. 链接
    https://github.com/zai-org/Open-AutoGLM/tree/main
  2. 项目介绍
    Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如"打开小红书搜索美食",Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。
  3. 其他关键信息
    AutoGLM-Phone-9B 是针对中文手机应用优化的模型;
    建议使用 Python 3.10 及以上版本;
    安装 ADB Keyboard(仅 Android 设备需要,用于文本输入);

二、ModelScope(魔搭社区)部署的服务进行体验

  1. 下载代码压缩包:GitHub--Code--Download ZIP

  2. 解压后用pyCharm 打开

  3. 按照README 环境准备

    步骤1. Python 环境;

    步骤2. 手机调试命令行工具ADB;

    步骤3. Android 7.0+ 或 HarmonyOS 设备,并启用 开发者模式 和 USB 调试;

    步骤4. 安装 ADB Keyboard(仅 Android 设备需要,用于文本输入);

  4. 准备工作(不进行模型部署,使用AutoGLM-Phone-9B在魔搭社区的API服务)

    步骤1. 安装python 依赖;

    步骤2. 安卓手机配置ADB环境;

    (忽略步骤3. 本地部署模型;)

  5. 魔搭社区的AutoGLM-Phone-9B模型API

    https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B

    如图,查找自己的api-key

  6. 使用第三方模型服务--魔搭API

    步骤1. 在pyCharm terminal 终端检查安卓设备SN号

    步骤2. 在pyCharm terminal 终端输出测试命令

  7. 体验"打开网易云音乐并播放每日推荐歌曲"的测试log

python 复制代码
(.venv) PS C:\Users\****\PycharmProjects\Open-AutoGLM-main> python main.py --base-url https://api-inference.modelscope.cn/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "ms-***-***-***-***-3461155e9437" "打开网易云音乐并播放每日推荐歌曲"
🔍 Checking system requirements...
--------------------------------------------------
1. Checking ADB installation... ✅ OK (Android Debug Bridge version 1.0.41)
2. Checking connected devices... ✅ OK (1 device(s): 11749253BL000022)
3. Checking ADB Keyboard... ✅ OK
--------------------------------------------------
✅ All system checks passed!

🔍 Checking model API...
--------------------------------------------------
1. Checking API connectivity (https://api-inference.modelscope.cn/v1)... ✅ OK
--------------------------------------------------
✅ Model API checks passed!

==================================================
Phone Agent - AI-powered phone automation
==================================================
Model: ZhipuAI/AutoGLM-Phone-9B
Base URL: https://api-inference.modelscope.cn/v1
Max Steps: 100
Language: cn
Device: 11749253BL000022 (auto-detected)
==================================================

Task: 打开网易云音乐并播放每日推荐歌曲


==================================================
💭 思考过程:
--------------------------------------------------
用户要求打开网易云音乐并播放每日推荐歌曲。我需要:
1. 首先启动网易云音乐应用
2. 然后找到每日推荐功能
3. 播放每日推荐的歌曲

当前在系统桌面,我可以看到屏幕上有"网易云音乐"应用图标(红色的那个,显示"网易云音乐")。

根据指南,我应该使用Launch action来打开应用,而不是点击图标。网易云音乐的app名称是"网易云音乐"。

让我先启动应用。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Launch",
  "app": "网易云音乐",
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
应用正在启动,显示了网易云音乐的启动画面(红色背景和网易云音乐logo)。我需要等待应用完全加载。由于已经有约2秒的内置延迟,我应该等待一下让应用完全加载。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Wait",
  "duration": "2 seconds",
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
应用已经加载,现在显示的是一个广告页面。右上角有"跳过 2"的按钮,表示可以跳过广告。我应该点击跳过按钮来进入主界面。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Tap",
  "element": [
    881,
    72
  ],
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
现在出现了一个弹窗,提示"录屏识别功能升级",说明佩戴耳机时无需摘耳机也能更好的识别机内音乐了。有一个"我知道了"按钮。我应该点击这个按钮关闭弹窗,然后继续寻找每日推荐功能。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Tap",
  "element": [
    499,
    901
  ],
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
现在出现了一个权限请求弹窗,询问是否允许网易云音乐录音。有三个选项:
1. 仅在使用该应用时允许
2. 仅限这一次
3. 不允许

为了使用应用,我应该选择一个允许选项。我选择"仅在使用该应用时允许",这样更注重隐私保护。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Tap",
  "element": [
    499,
    794
  ],
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
又出现了一个新的权限请求弹窗,询问是否允许网易云音乐查找、连接到附近设备以及确定附近设备的相对位置。有两个选项:允许和不允许。为了正常使用应用,我应该点击"允许"。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Tap",
  "element": [
    499,
    864
  ],
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
应用现在正在识别歌曲,显示"搜索中 (5s)"。这是听歌识曲功能。我需要等待它完成,或者返回主界面寻找每日推荐功能。让我点击左上角的返回按钮,回到主界面。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Tap",
  "element": [
    77,
    71
  ],
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
出现了一个弹窗,询问是否在桌面创建听歌识曲的快捷方式。有两个选项:取消和创建。我应该点击"取消",因为我的目标是找到每日推荐功能,而不是听歌识曲。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Tap",
  "element": [
    604,
    582
  ],
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
太好了!现在我回到了网易云音乐的主界面。我可以看到:
- 顶部有搜索栏
- 有几个标签:推荐、年榜、音乐、播客、听书、免费听
- 左侧有一个"每日推荐"的卡片,显示"今日限定好歌推荐"
- 还有其他推荐内容如"热歌榜"等

我需要点击"每日推荐"这个卡片来进入每日推荐页面。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Tap",
  "element": [
    222,
    288
  ],
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
完美!我现在进入了每日推荐页面。我可以看到:
- 顶部显示日期"19/12"(2025年12月19日)
- 有两个标签:"默认推荐"和"风格推荐"
- 有一个"播放全部"的按钮
- 显示"正在加载"

我需要点击"播放全部"按钮来播放每日推荐的歌曲。
--------------------------------------------------
🎯 执行动作:
{
  "action": "Tap",
  "element": [
    223,
    342
  ],
  "_metadata": "do"
}
==================================================


==================================================
💭 思考过程:
--------------------------------------------------
太好了!每日推荐已经开始播放了。我可以看到:
- 顶部显示"每日推荐"
- 正在播放的歌曲是"游山恋 (Album Version)" - 海伦
- 播放界面显示了播放控制按钮(循环、上一首、暂停/播放、下一首、列表)
- 进度条显示00:00,总时长03:51
- 底部有其他功能按钮

歌曲已经开始播放了,任务完成!
--------------------------------------------------
🎯 执行动作:
{
  "_metadata": "finish",
  "message": "任务完成!我已成功打开网易云音乐并开始播放每日推荐歌曲。目前正在播放\"游山恋 (Album Version)\" - 海伦,这是每日推荐中的第一首歌曲。播放界面显示了完整的播放控制功能, 包括暂停/播放按钮、进度条以及上一首、下一首等控制按钮。"
}
==================================================


🎉 ================================================
✅ 任务完成: 任务完成!我已成功打开网易云音乐并开始播放每日推荐歌曲。目前正在播放"游山恋 (Album Version)" - 海伦,这是每日推荐中的第一首歌曲。播放界面显示了完整的播放控制功能,包括括停/播放按钮、进度条以及上一首、下一首等控制按钮。
==================================================


Result: 任务完成!我已成功打开网易云音乐并开始播放每日推荐歌曲。目前正在播放"游山恋 (Album Version)" - 海伦,这是每日推荐中的第一首歌曲。播放界面显示了完整的播放控制功能,包括暂停/播放按钮、进度条以及上一首、下一首等控制按钮。
相关推荐
Mr.Lee jack2 小时前
【torch.compile】PyTorch Dynamo 和 Inductor 编译流程
人工智能·pytorch·深度学习
浮不上来2 小时前
人工兔优化算法(ARO)详解:原理、实现与应用
大数据·人工智能·机器学习·优化算法
Elastic 中国社区官方博客2 小时前
Elastic 在 AWS re:Invent:总结一年在 agentic AI 创新中的合作
大数据·人工智能·elasticsearch·搜索引擎·云计算·全文检索·aws
IvorySQL2 小时前
版本发布| IvorySQL 5.1 发布
数据库·人工智能·postgresql·开源
AI营销资讯站2 小时前
AI营销内容生产新范式,原圈科技多智能体平台赋能全球化出海新机遇
人工智能
free-elcmacom2 小时前
机器学习高阶教程<6>推荐系统高阶修炼手册:混排、多任务与在线学习,解锁精准推荐新境界
人工智能·python·学习·算法·机器学习·机器人
pingao1413782 小时前
气象监测新纪元:多功能自动站如何赋能智慧城市
人工智能·智慧城市
独自归家的兔2 小时前
基于GUI-PLUS 搭配 Java Robot 实现智能桌面操控
java·开发语言·人工智能
我不是小upper2 小时前
ARIMA-LSTM-Prophet 融合模型在股票预测中的应用
人工智能·rnn·lstm