Mobile-Agent
阿里开源(GitHub,8.9K Star,886 Fork)移动端智能体,通过ADB(Android Debug Bridge)向手机发送点击或滑动指令。而且每执行一步,它会再次截图确认,如果发现不对,它会自我修正。
Droidrun
项目主页,基于LLM的开源(GitHub,8.6K Star,913 Fork)Android/iOS自动化Agent框架。核心理念是将思考交给AI,将执行交给框架,打破传统自动化脚本对特定UI控件的强依赖。
AppAgent
论文,项目主页,腾讯开源(GitHub,6.8K Star,751 Fork),设计初衷是赋予AI Agent像人类用户一样的感知和操作能力。
通过ADB获取手机屏幕截图,发送给多模态大模型。模型分析截图中的UI元素,决定下一步是点击哪个坐标还是滑动屏幕,从而实现真正的视觉交互。
模仿人类学习新软件的过程:可通过自主探索或观察人类演示来学习,记录下每个按钮的作用,并生成一份使用文档(Knowledge Base)。当需要执行具体任务,会调用之前生成的文档,精准地执行操作,而不需要每次都重新摸索。
AppAgentX
开源(GitHub,655 Star,83 Fork)自带进化机制的下一代GUI智能体。
mobile-use
论文,由Minitap AI团队开源(GitHub,2.6K Star,223 Fork)Python库,核心逻辑是让AI模型模拟人类的操作行为。
它会截取当前手机屏幕的图像,将截图和用户的指令发送给多模态大模型。模型会分析截图,判断如果要完成这个任务,我现在该点哪里。模型返回具体的坐标或操作指令(点击、滑动、输入),Mobile-Use将其转换为底层ADB命令执行。执行完动作后,再次截图,确认是否进入了下一页,直到任务完成。
集成Maestro移动测试框架作为底层交互引擎,确保对真实设备操作的稳定性和可靠性。支持多种LLM后端,用户可根据需要选择OpenAI API、本地部署模型或其他兼容服务。
MobiAgent
论文,IPADS实验室专为手机交互设计的开源(GitHub,1.8K Star,232 Fork)框架,包括三个核心组件:
- MobiMind:模型家族,包含多个不同参数规模的模型
- AgentRR:加速框架,对重复任务进行优化,大幅降低二次执行耗时
- MobiFlow:基准测试平台,覆盖小红书、高德地图、饿了么、淘宝等10+主流App,包含简单和困难两个难度等级,为移动智能代理的性能评估提供标准化场景
可把复杂任务分解为三个专业化模块:
- Planner:负责制定整体计划
- Decider:判断每一步该点击哪里
- Grounder:精准定位屏幕上的具体操作位置
架构图

通过Python脚本使用:
bash
conda create -n MobiMind python=3.10
conda activate MobiMind
pip install -r requirements_simple.txt
vllm serve IPADS-SAI/MobiMind-Decider-7B --port <decider port>
vllm serve IPADS-SAI/MobiMind-Grounder-3B --port <grounder port>
vllm serve Qwen/Qwen3-4B-Instruct --port <planner port>
python -m runner.mobiagent.mobiagent --service_ip <服务IP> --decider_port <决策服务端口> --grounder_port <定位服务端口> --planner_port <规划服务端口>
MobiClaw
开源(GitHub,42 Star,2 Fork),
OpenPhone
论文,HKUDS开源(GitHub,828 Star,169 Fork)专为AI手机设计的移动智能体基础模型:OpenPhone-3B。旨在解决传统AI Agent重度依赖云端API的问题。通过完全本地运行,实现无隐私担忧、无云依赖和零API费用的移动AI交互。
实战
从官方GitHub链接Android-Lab里安装AVD模拟器,然后
bash
pip install vllm
# 下载模型权重
python vllm_script/inference.py --model OpenPhone-3B
# 单任务
python eval.py -n test_name -c configs/example_xml_cloud_hyper.yaml --task_id zoom_1
# 批量任务
python generate_result.py --input_folder ./logs/evaluation/ --output_folder ./logs/evaluation/ --output_excel test.xlsx
自定义任务:在model_training/目录调整训练管道,添加合成数据(如手机App截图)。重新训练后,体验个性化AI助理。
Open Minis
官网,一款超越对话框的设备端AI智能体,能自主行动:浏览网页、读取健康数据、管理日程、控制智能家居、自动化复杂任务。一切都在设备上完成,无需考虑隐私问题。
在iOS里控制一套完整iSH (Alpine Linux) 虚拟机,有终端有浏览器。
功能特性
- 多模型AI:接入Anthropic Claude、OpenAI GPT、Google Gemini、OpenRouter或任意OpenAI兼容接口,每次对话可自由切换模型
- 内置Linux Shell:设备本地运行完整AlpineLinux环境。智能体可编写并执行脚本、安装软件包、处理数据,无需任何服务器
- 深度iOS集成:原生访问HealthKit、日历、提醒事项、HomeKit、通讯录、蓝牙、定位、照片、语音等系统框架
- 内置浏览器:智能体可浏览网页、填写表单、提取内容、截图------全程在应用内完成
- 自定义技能:从URL或文件系统导入,或创建AI技能以扩展智能体能力,兼容
SKILL.md格式;技能可按会话启用或禁用 - 隐私优先设计:API密钥存储在设备Keychain中。不收集数据,无第三方分析,对话内容完全属于你
- 将多个模型组合,配置路由策略:
- 故障转移:按顺序尝试,若某个失败则自动切换下一个
- 负载均衡:将对话均匀分配到各模型
- 智能体循环模型:配置独立模型池,供AI智能体在委派子任务或推理复杂操作时使用
- 会话文件系统:每个会话拥有独立的文件系统,挂载在Linux环境
/var/minis/下,按命名空间组织:minis://workspace/:工作文件、脚本、数据minis://attachments/:图片、音频、视频minis://browser/:浏览器截图和提取内容minis://offloads/:大型工具输出minis://shared/:跨会话共享存储minis://memory/:记忆日志,包括GLOBAL.md全局记忆
AwesomeMinis(GitHub,70 Star,3 Fork)社区精选案例集
Minis 技能(GitHub,291 Star,37 Fork)。
支持多种AI提供商,至少需要一个API密钥才能开始使用。
| 提供商 | 模型 | 获取API密钥 |
|---|---|---|
| Anthropic | 以最新版App为准 | console.anthropic.com |
| OpenAI | 同上 | platform.openai.com |
| Google Gemini | 同上 | aistudio.google.com |
| OpenRouter | 多提供商路由 | openrouter.ai |
| 自定义 | 任意OpenAI兼容API | 提供商控制台 |
实战
快速开始
- 下载安装:从App Store下载Open Minis
- 添加AI提供商:添加AI提供商,选择支持的服务商并输入API密钥;不配置Key,无法发起对话
- 选择模型:从提供商中选择模型。可添加多个提供商,并在每次对话中切换模型
- 开始对话:创建新会话,开始聊天。智能体可执行命令、浏览网页、读取日历等
API提供商,使用OpenRouter最简单。

ish
官网,一个在iOS上真正运行Linux用户空间的开源(GitHub,20K Star,1.4K Fork)项目,比ios_system更接近真实Linux。
核心思路:
- 使用
x86用户态模拟器(emulator) - 模拟CPU+Linux系统调用
- 在iOS内运行一个完整Linux发行版(通常是Alpine)
本质:
- 不是模拟命令,而是模拟整台Linux环境
- 可运行真实Linux可执行文件(如apk、git、gcc)
架构:输入命令→进入Linux shell→x86模拟执行→syscall转换到iOS
特点:
- 支持完整包管理,apk
- 可安装真实软件,git、vim、python等
- 更接近真实Linux体验,能安装各种APT包、扩展二进制命令
局限:
- 性能较慢(CPU模拟)
- 只支持x86 Linux(不是ARM原生)
ios_system
一个在iOS上模拟执行Unix命令的框架,支持常见Shell命令和Python执行、WebAssembly扩展模块。基于A-Shell项目,可在App Store下载体验。
核心思路:
- iOS不允许fork/exec或真正运行shell
- 把每个命令(ls、grep等)编译成独立的框架
- 运行时解析字符串(如
ls -la),找到对应命令并调用其main()函数;用法类似ios_system("ls -la")
本质:
- 不是系统命令,而是函数调用
- 没有多进程,所有命令在同一进程执行
特点:
- 支持常见命令(ls、cp、grep、tar等)
- 可扩展(Python、Lua等)
- 适配iOS沙箱(文件路径、环境变量)
局限:
- 不是完整Linux环境
- 无fork/exec、多进程、信号机制
- 需要对命令源码做适配
总结:用动态库+函数调用在iOS里伪造一个类Unix命令执行环境
- 仍然受iOS沙箱限制
和ios_system的核心区别:
- ios_system:假命令(函数调用)
- iSH:真Linux(模拟CPU+syscall)