移动端智能体:Mobile-Agent、Droidrun、AppAgent、mobile-use、MobiAgent

Mobile-Agent

阿里开源(GitHub,8.9K Star,886 Fork)移动端智能体,通过ADB(Android Debug Bridge)向手机发送点击或滑动指令。而且每执行一步,它会再次截图确认,如果发现不对,它会自我修正。

Droidrun

项目主页,基于LLM的开源(GitHub,8.6K Star,913 Fork)Android/iOS自动化Agent框架。核心理念是将思考交给AI,将执行交给框架,打破传统自动化脚本对特定UI控件的强依赖。

AppAgent

论文项目主页,腾讯开源(GitHub,6.8K Star,751 Fork),设计初衷是赋予AI Agent像人类用户一样的感知和操作能力。

通过ADB获取手机屏幕截图,发送给多模态大模型。模型分析截图中的UI元素,决定下一步是点击哪个坐标还是滑动屏幕,从而实现真正的视觉交互。

模仿人类学习新软件的过程:可通过自主探索或观察人类演示来学习,记录下每个按钮的作用,并生成一份使用文档(Knowledge Base)。当需要执行具体任务,会调用之前生成的文档,精准地执行操作,而不需要每次都重新摸索。

AppAgentX

论文项目主页

开源(GitHub,655 Star,83 Fork)自带进化机制的下一代GUI智能体。

mobile-use

论文,由Minitap AI团队开源(GitHub,2.6K Star,223 Fork)Python库,核心逻辑是让AI模型模拟人类的操作行为。

它会截取当前手机屏幕的图像,将截图和用户的指令发送给多模态大模型。模型会分析截图,判断如果要完成这个任务,我现在该点哪里。模型返回具体的坐标或操作指令(点击、滑动、输入),Mobile-Use将其转换为底层ADB命令执行。执行完动作后,再次截图,确认是否进入了下一页,直到任务完成。

集成Maestro移动测试框架作为底层交互引擎,确保对真实设备操作的稳定性和可靠性。支持多种LLM后端,用户可根据需要选择OpenAI API、本地部署模型或其他兼容服务。

MobiAgent

论文,IPADS实验室专为手机交互设计的开源(GitHub,1.8K Star,232 Fork)框架,包括三个核心组件:

  • MobiMind:模型家族,包含多个不同参数规模的模型
  • AgentRR:加速框架,对重复任务进行优化,大幅降低二次执行耗时
  • MobiFlow:基准测试平台,覆盖小红书、高德地图、饿了么、淘宝等10+主流App,包含简单和困难两个难度等级,为移动智能代理的性能评估提供标准化场景

可把复杂任务分解为三个专业化模块:

  • Planner:负责制定整体计划
  • Decider:判断每一步该点击哪里
  • Grounder:精准定位屏幕上的具体操作位置

架构图

通过Python脚本使用:

bash 复制代码
conda create -n MobiMind python=3.10
conda activate MobiMind
pip install -r requirements_simple.txt
vllm serve IPADS-SAI/MobiMind-Decider-7B --port <decider port>
vllm serve IPADS-SAI/MobiMind-Grounder-3B --port <grounder port>
vllm serve Qwen/Qwen3-4B-Instruct --port <planner port>
python -m runner.mobiagent.mobiagent --service_ip <服务IP> --decider_port <决策服务端口> --grounder_port <定位服务端口> --planner_port <规划服务端口>

MobiClaw

开源(GitHub,42 Star,2 Fork),

OpenPhone

论文,HKUDS开源(GitHub,828 Star,169 Fork)专为AI手机设计的移动智能体基础模型:OpenPhone-3B。旨在解决传统AI Agent重度依赖云端API的问题。通过完全本地运行,实现无隐私担忧、无云依赖和零API费用的移动AI交互。

实战

从官方GitHub链接Android-Lab里安装AVD模拟器,然后

bash 复制代码
pip install vllm
# 下载模型权重
python vllm_script/inference.py --model OpenPhone-3B
# 单任务
python eval.py -n test_name -c configs/example_xml_cloud_hyper.yaml --task_id zoom_1
# 批量任务
python generate_result.py --input_folder ./logs/evaluation/ --output_folder ./logs/evaluation/ --output_excel test.xlsx

自定义任务:在model_training/目录调整训练管道,添加合成数据(如手机App截图)。重新训练后,体验个性化AI助理。

Open Minis

官网,一款超越对话框的设备端AI智能体,能自主行动:浏览网页、读取健康数据、管理日程、控制智能家居、自动化复杂任务。一切都在设备上完成,无需考虑隐私问题。

在iOS里控制一套完整iSH (Alpine Linux) 虚拟机,有终端有浏览器。

功能特性

  • 多模型AI:接入Anthropic Claude、OpenAI GPT、Google Gemini、OpenRouter或任意OpenAI兼容接口,每次对话可自由切换模型
  • 内置Linux Shell:设备本地运行完整AlpineLinux环境。智能体可编写并执行脚本、安装软件包、处理数据,无需任何服务器
  • 深度iOS集成:原生访问HealthKit、日历、提醒事项、HomeKit、通讯录、蓝牙、定位、照片、语音等系统框架
  • 内置浏览器:智能体可浏览网页、填写表单、提取内容、截图------全程在应用内完成
  • 自定义技能:从URL或文件系统导入,或创建AI技能以扩展智能体能力,兼容SKILL.md格式;技能可按会话启用或禁用
  • 隐私优先设计:API密钥存储在设备Keychain中。不收集数据,无第三方分析,对话内容完全属于你
  • 将多个模型组合,配置路由策略:
    • 故障转移:按顺序尝试,若某个失败则自动切换下一个
    • 负载均衡:将对话均匀分配到各模型
  • 智能体循环模型:配置独立模型池,供AI智能体在委派子任务或推理复杂操作时使用
  • 会话文件系统:每个会话拥有独立的文件系统,挂载在Linux环境/var/minis/下,按命名空间组织:
    • minis://workspace/:工作文件、脚本、数据
    • minis://attachments/:图片、音频、视频
    • minis://browser/:浏览器截图和提取内容
    • minis://offloads/:大型工具输出
    • minis://shared/:跨会话共享存储
    • minis://memory/:记忆日志,包括GLOBAL.md全局记忆

AwesomeMinis(GitHub,70 Star,3 Fork)社区精选案例集

Minis 技能(GitHub,291 Star,37 Fork)。

支持多种AI提供商,至少需要一个API密钥才能开始使用。

提供商 模型 获取API密钥
Anthropic 以最新版App为准 console.anthropic.com
OpenAI 同上 platform.openai.com
Google Gemini 同上 aistudio.google.com
OpenRouter 多提供商路由 openrouter.ai
自定义 任意OpenAI兼容API 提供商控制台

实战

快速开始

  1. 下载安装:从App Store下载Open Minis
  2. 添加AI提供商:添加AI提供商,选择支持的服务商并输入API密钥;不配置Key,无法发起对话
  3. 选择模型:从提供商中选择模型。可添加多个提供商,并在每次对话中切换模型
  4. 开始对话:创建新会话,开始聊天。智能体可执行命令、浏览网页、读取日历等

API提供商,使用OpenRouter最简单。

ish

官网,一个在iOS上真正运行Linux用户空间的开源(GitHub,20K Star,1.4K Fork)项目,比ios_system更接近真实Linux。

核心思路:

  • 使用x86用户态模拟器(emulator)
  • 模拟CPU+Linux系统调用
  • 在iOS内运行一个完整Linux发行版(通常是Alpine)

本质:

  • 不是模拟命令,而是模拟整台Linux环境
  • 可运行真实Linux可执行文件(如apk、git、gcc)

架构:输入命令→进入Linux shell→x86模拟执行→syscall转换到iOS

特点:

  • 支持完整包管理,apk
  • 可安装真实软件,git、vim、python等
  • 更接近真实Linux体验,能安装各种APT包、扩展二进制命令

局限:

  • 性能较慢(CPU模拟)
  • 只支持x86 Linux(不是ARM原生)

ios_system

一个在iOS上模拟执行Unix命令的框架,支持常见Shell命令和Python执行、WebAssembly扩展模块。基于A-Shell项目,可在App Store下载体验。

核心思路:

  • iOS不允许fork/exec或真正运行shell
  • 把每个命令(ls、grep等)编译成独立的框架
  • 运行时解析字符串(如ls -la),找到对应命令并调用其main()函数;用法类似ios_system("ls -la")

本质:

  • 不是系统命令,而是函数调用
  • 没有多进程,所有命令在同一进程执行

特点:

  • 支持常见命令(ls、cp、grep、tar等)
  • 可扩展(Python、Lua等)
  • 适配iOS沙箱(文件路径、环境变量)

局限:

  • 不是完整Linux环境
  • 无fork/exec、多进程、信号机制
  • 需要对命令源码做适配

总结:用动态库+函数调用在iOS里伪造一个类Unix命令执行环境

  • 仍然受iOS沙箱限制

和ios_system的核心区别:

  • ios_system:假命令(函数调用)
  • iSH:真Linux(模拟CPU+syscall)