移动端智能体开源项目清单

移动端智能体核心是自然语言驱动 + 视觉 / 控件识别 + 移动端自动化」,以下按功能定位、技术栈、易用性分类整理主流开源项目,覆盖「轻量自动化→多模态 AI 驱动→工业级运维」场景。

一、轻量易用型(新手首选,无大模型依赖)

1. Airtest(网易开源,最成熟)

  • 核心信息 :仓库:https://github.com/AirtestProject/Airtest

  • **语言:**Python适配:Android/iOS 全版本

  • 部署难度:⭐(零基础 5 分钟上手)

  • 核心特点

    • 纯视觉 + 控件双驱动,支持「录制操作→生成脚本」,开箱即用;
    • 内置 OCR、截图对比、坐标操作,无需编程基础;
    • 配套可视化工具 AirtestIDE,拖拽式编写脚本;
    • 长期维护,社区文档完善,问题易排查。
  • 快速上手

    pip install airtest pocoairtest

    核心操作示例(打开抖音点赞)

    from airtest.core.api import *
    connect_device("Android:///")
    start_app("com.ss.android.ugc.aweme")
    click([900, 500]) # 点赞坐标

2. UIAutomator2(控件驱动,精准度高

  • 核心信息 :仓库:https://github.com/openatx/uiautomator2

  • **语言:**Python

  • **适配:**Android 4.4+部署难度:⭐⭐

  • 核心特点

    • 基于安卓原生 UIAutomator,控件识别准确率接近 100%(比纯视觉稳定);
    • 支持免 ROOT 操作,无需安装 APK 到手机;
    • 可结合 OpenCV/OCR 实现视觉 + 控件混合驱动;
    • 适合精准操作(如点击按钮、输入文字)。
  • 快速上手

    复制代码
    pip install uiautomator2
    python -m uiautomator2 init  # 手机端安装辅助服务
    # 核心操作示例
    import uiautomator2 as u2
    d = u2.connect()  # 连接手机
    d.app_start("com.ss.android.ugc.aweme")
    d.click(x=900, y=500)  # 点赞

3. Appium(跨平台工业级)

  • 核心信息 :仓库:https://github.com/appium/appium

  • **语言:**Python/Java/Node.js

  • **适配:**Android/iOS 全版本

  • 部署难度:⭐⭐

  • 核心特点

    • 全球最成熟的移动端自动化框架,控件驱动为主;
    • 支持 iOS/Android 全平台,企业级应用广泛;
    • 生态完善,可集成 LLM(如 GPT-4o)实现自然语言驱动;
    • 缺点:需配置安卓 /iOS SDK,新手入门稍复杂。
  • 快速上手

    复制代码
    # 安装Appium客户端
    pip install Appium-Python-Client
    # 核心操作示例(需先启动Appium服务)
    from appium import webdriver
    caps = {"platformName":"Android", "appPackage":"com.ss.android.ugc.aweme", "appActivity":".main.MainActivity"}
    driver = webdriver.Remote("http://localhost:4723/wd/hub", caps)
    driver.find_element_by_xpath("//*[@text='点赞']").click()

二、AI 驱动型(多模态 + 任务规划)

1. Mobile-Agent(阿里达摩院)

  • 核心信息 :仓库:https://github.com/X-PLUG/Mobile-Agent
  • **语言:**Python
  • **适配:**Android 8.0+
  • 部署难度:⭐⭐⭐
  • 核心特点
    • 多模态大模型(GPT-4V/Qwen-VL)驱动,支持跨 App 复杂任务规划;
    • 纯视觉识别,无需控件适配,适配任意 App;
    • 阿里开源,文档完善,适合研究 / 二次开发;
    • 缺点:依赖大模型,无网环境部署困难。

2. AgentBot(跨平台可视化)

  • 核心信息 :仓库:https://github.com/AgentBotLab/AgentBot
  • **语言:**Python+Java
  • 适配:Android 8.0+/iOS(有限)
  • 部署难度:⭐⭐⭐
  • 核心特点
    • 自然语言→任务规划→操作执行闭环,支持多模态大模型;
    • 提供可视化操作面板,无需编写代码;
    • 支持多设备批量管理,可输出 RESTful API;
    • 缺点:iOS 适配仅支持基础操作,复杂任务易出错。

3. MobileRL(强化学习驱动,学术前沿)

  • 核心信息 :仓库:https://github.com/MobileRL/MobileRL
  • **语言:**Python+PyTorch
  • **适配:**Android 9.0+
  • 部署难度:⭐⭐⭐⭐⭐
  • 核心特点
    • 强化学习(RL)驱动,能自主学习操作策略(无需预设规则);
    • 结合 CLIP/ViT 视觉预训练模型,识别鲁棒性极强;
    • 适合学术研究、定制化操作策略优化;
    • 缺点:需深度学习环境,部署门槛高。

三、工业级 / 企业级(高稳定性 + 批量运维)

1. AutoDroid

  • 核心信息 :仓库:https://github.com/AutoDroid/AutoDroid
  • 语言:Java+Python
  • **适配:**Android 6.0+
  • 部署难度:⭐⭐⭐⭐
  • 核心特点
    • 控件 + 视觉双引擎,工业级稳定性,支持 7×24 小时运行;
    • 离线部署,无外网也能运行,内置异常重试 / 故障转移;
    • 支持多设备集群管理,适合企业级运维;
    • 缺点:仅支持安卓,学习成本高。

2. Testin(云测开源版)

  • 核心信息 :仓库:https://github.com/testinlab/ATX
  • **语言:**Python
  • **适配:**Android/iOS
  • 部署难度:⭐⭐⭐
  • 核心特点
    • 基于 UIAutomator2 扩展,支持云设备管理;
    • 内置日志监控、报告生成,适合批量 APP 测试;
    • 企业级功能(如任务调度、设备分组);
    • 缺点:文档偏技术,新手不友好。

四、选型决策表(按需求匹配)

核心需求 优先选择 次选 不选
零基础、简单自动化(点赞 / 刷视频) Airtest UIAutomator2 MobileRL/AutoDroid
跨 App 复杂任务(AI 规划) Mobile-Agent AgentBot Airtest/UIAutomator2
跨平台(iOS+Android) Appium+LLM AgentBot 其他仅安卓项目
企业级 / 批量设备 / 离线运行 AutoDroid Testin MobileRL/AgentBot
学术研究 / 强化学习 MobileRL Mobile-Agent Airtest/UIAutomator2
可视化操作 / 少写代码 AgentBot AirtestIDE Appium/AutoDroid

五、快速上手建议(新手路线)

  1. 第一步:用 Airtest 练手,掌握基础操作(点击、滑动、OCR),5 分钟跑通抖音点赞脚本;
  2. 第二步:如需 AI 驱动,集成 GPT-4o 到 Airtest/Appium,实现自然语言指令→脚本生成→执行;
  3. 第三步:复杂任务 / 企业场景,迁移到 Mobile-Agent/AutoDroid。

六、总结

  1. 轻量自动化:优先选 Airtest/UIAutomator2(新手友好、稳定);
  2. AI 驱动复杂任务:优先选 Mobile-Agent(阿里开源、文档完善);
  3. 跨平台 / 企业级:优先选 Appium+LLM/AutoDroid;
  4. 研究场景:优先选 MobileRL;
  5. 所有项目均支持「视觉识别 + ADB 操作」,核心差异在于是否依赖大模型、是否支持跨平台、稳定性 / 易用性 Trade-off。
相关推荐
Hommy886 小时前
【剪映小助手】添加关键帧接口(Add Keyframes)
开源·剪映小助手·视频剪辑自动化·剪映api
狗凯之家源码网6 小时前
正版扭蛋机 V3 商用程序,盲盒系统落地实战指南
开源·php
勤劳打代码7 小时前
翻江倒海——滚动布局下拉视图管理
flutter·前端框架·开源
江畔柳前堤8 小时前
github实战指南05-Fork与开源协作
人工智能·线性代数·oracle·开源·github·word
Keep_Trying_Go9 小时前
华为开源框架MindSpore基本使用
华为·开源
神奇的小猴程序员21 小时前
提升 AI 与开发效率!两款实用 Skill 开源工具 FunctionCool-Skill & StyleCool-Skill 深度体验
人工智能·开源·s
Cosolar21 小时前
Docsify零构建文档站完全指南:从快速搭建到企业级部署
前端·开源·github
分布式存储与RustFS1 天前
基于Rust的国产开源对象存储RustFS:S3 Table对Iceberg数据湖的适配详解
rust·开源·iceberg·对象存储·rustfs·minio平替·s3 table
JGDT_1 天前
ERP重塑与未来趋势:SAP的实践及大一统格局(上)
大数据·人工智能·安全·架构·开源
东方佑1 天前
分形递归状态机 (FRSM) 实验报告-更新对比
人工智能·语言模型·自然语言处理·开源