【Open-AutoGLM】手机端智能助理框架详解

文章目录

Open-AutoGLM:手机端智能助理框架详解

项目简介

若对您有帮助的话,请点赞收藏加关注哦,您的关注是我持续创作的动力!有问题请私信或联系邮箱:funian.gm@gmail.com

Open-AutoGLM 是一个基于 AutoGLM 构建的手机端智能助理框架,核心组件为 Phone Agent。它通过多模态方式理解手机屏幕内容,结合 ADB(Android Debug Bridge)实现自动化操作,支持用户通过自然语言指令完成各类手机任务(如"打开小红书搜索美食""打开淘宝搜索无线耳机"等)。

项目特点:

  • 多模态交互:通过视觉语言模型解析屏幕内容
  • 自动化操作:模拟点击、滑动、输入等人类操作
  • 灵活部署:支持本地/云端模型部署,数据隐私可控
  • 安全机制:内置敏感操作确认及人工接管功能(如登录、验证码场景)
  • 远程控制:支持 WiFi 或网络连接设备,实现远程调试

核心模型

Open-AutoGLM 提供两个预训练模型,适配不同场景:

模型名称 特点 下载地址
AutoGLM-Phone-9B 针对中文手机应用优化 Hugging FaceModelScope
AutoGLM-Phone-9B-Multilingual 支持英语及多语言场景 Hugging FaceModelScope

环境准备与部署

1. 基础环境

  • Python 3.10+

  • 安装依赖:

    bash 复制代码
    pip install -r requirements.txt 
    pip install -e .

2. 模型部署

需通过 SGlang 或 vLLM 启动 OpenAI 格式的模型服务(以 vLLM 为例):

bash 复制代码
python3 -m vllm.entrypoints.openai.api_server \
 --served-model-name autoglm-phone-9b \
 --allowed-local-media-path /   \
 --mm-encoder-tp-mode data \
 --mm_processor_cache_type shm \
 --mm_processor_kwargs '{"max_pixels":5000000}' \
 --max-model-len 25480  \
 --chat-template-content-format string \
 --limit-mm-per-prompt '{"image":10}' \
 --model zai-org/AutoGLM-Phone-9B \
 --port 8000

启动成功后,模型服务可通过 http://localhost:8000/v1 访问。

快速使用

1. 命令行模式

bash 复制代码
# 交互模式
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b"

# 直接执行任务(如打开美团搜索火锅店)
python main.py --base-url http://localhost:8000/v1 "打开美团搜索附近的火锅店"

# 切换英文提示词
python main.py --lang en --base-url http://localhost:8000/v1 "Open Chrome browser"

2. Python API

python 复制代码
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig

# 配置模型
model_config = ModelConfig(
    base_url="http://localhost:8000/v1",
    model_name="autoglm-phone-9b",
)

# 创建代理并执行任务
agent = PhoneAgent(model_config=model_config)
result = agent.run("打开淘宝搜索无线耳机")
print(result)

项目结构

核心模块组织清晰,便于二次开发:

复制代码
phone_agent/
├── agent.py             # PhoneAgent 主类
├── adb/                 # ADB 工具(连接、截图、输入、设备控制)
├── actions/             # 操作处理器(执行点击、滑动等动作)
├── config/              # 配置文件(应用映射、多语言提示词)
└── model/               # AI 模型客户端(兼容 OpenAI 接口)

二次开发

  1. 安装开发依赖:

    bash 复制代码
    pip install -e ".[dev]"
  2. 运行测试:

    bash 复制代码
    pytest tests/
  3. 示例参考:examples/ 目录提供基础使用、单步调试、批量任务等示例代码。

相关推荐
网安蟹佬霸16 分钟前
Kimi K2.7 Code开源发布:token消耗降30%,高速版5倍速今日登场
开源
xingyuzhisuan1 小时前
算力租赁平台 GPU 资源隔离方案:显存抢占问题深度排查与解决
大数据·云计算·gpu算力
不讲道理的柯里昂2 小时前
我做了一个更适合二开的 React Admin 开源模板:React Admin Plus
前端框架·开源
IT新视界2 小时前
星环科技ArgoDB:基于一体化架构构建数据全生命周期安全底座
数据库·科技·安全·架构
Java面试题总结3 小时前
多区域架构:边缘节点、核心节点与跨区域写冲突
架构
郭wes代码3 小时前
Win10 拒绝访问、长期关机自动维护与声音图标灰色故障解决记录
windows·python·开源
2301_780789663 小时前
零信任架构中,身份感知防火墙(IAFW)的部署要点与最佳实践
linux·运维·服务器·人工智能·tcp/ip·架构
lulu12165440784 小时前
OpenRouter Fusion 多模型融合架构深度拆解:预算级模型组团打平 Fable 5,多模型协作才是 AGI 的正确打开方式?
java·人工智能·架构·ai编程·agi
极光技术熊4 小时前
全栈项目部署实战指南:Java / Python / Vue / React 一站式搞定
程序员·架构
Esaka_Forever4 小时前
codex和open claude两者只有客户端工具开源,底层大模型权重全部闭源
开源