移动端智能体开源项目清单

移动端智能体核心是自然语言驱动 + 视觉 / 控件识别 + 移动端自动化」,以下按功能定位、技术栈、易用性分类整理主流开源项目,覆盖「轻量自动化→多模态 AI 驱动→工业级运维」场景。

一、轻量易用型(新手首选,无大模型依赖)

1. Airtest(网易开源,最成熟)

  • 核心信息 :仓库:https://github.com/AirtestProject/Airtest

  • **语言:**Python适配:Android/iOS 全版本

  • 部署难度:⭐(零基础 5 分钟上手)

  • 核心特点

    • 纯视觉 + 控件双驱动,支持「录制操作→生成脚本」,开箱即用;
    • 内置 OCR、截图对比、坐标操作,无需编程基础;
    • 配套可视化工具 AirtestIDE,拖拽式编写脚本;
    • 长期维护,社区文档完善,问题易排查。
  • 快速上手

    pip install airtest pocoairtest

    核心操作示例(打开抖音点赞)

    from airtest.core.api import *
    connect_device("Android:///")
    start_app("com.ss.android.ugc.aweme")
    click([900, 500]) # 点赞坐标

2. UIAutomator2(控件驱动,精准度高

  • 核心信息 :仓库:https://github.com/openatx/uiautomator2

  • **语言:**Python

  • **适配:**Android 4.4+部署难度:⭐⭐

  • 核心特点

    • 基于安卓原生 UIAutomator,控件识别准确率接近 100%(比纯视觉稳定);
    • 支持免 ROOT 操作,无需安装 APK 到手机;
    • 可结合 OpenCV/OCR 实现视觉 + 控件混合驱动;
    • 适合精准操作(如点击按钮、输入文字)。
  • 快速上手

    复制代码
    pip install uiautomator2
    python -m uiautomator2 init  # 手机端安装辅助服务
    # 核心操作示例
    import uiautomator2 as u2
    d = u2.connect()  # 连接手机
    d.app_start("com.ss.android.ugc.aweme")
    d.click(x=900, y=500)  # 点赞

3. Appium(跨平台工业级)

  • 核心信息 :仓库:https://github.com/appium/appium

  • **语言:**Python/Java/Node.js

  • **适配:**Android/iOS 全版本

  • 部署难度:⭐⭐

  • 核心特点

    • 全球最成熟的移动端自动化框架,控件驱动为主;
    • 支持 iOS/Android 全平台,企业级应用广泛;
    • 生态完善,可集成 LLM(如 GPT-4o)实现自然语言驱动;
    • 缺点:需配置安卓 /iOS SDK,新手入门稍复杂。
  • 快速上手

    复制代码
    # 安装Appium客户端
    pip install Appium-Python-Client
    # 核心操作示例(需先启动Appium服务)
    from appium import webdriver
    caps = {"platformName":"Android", "appPackage":"com.ss.android.ugc.aweme", "appActivity":".main.MainActivity"}
    driver = webdriver.Remote("http://localhost:4723/wd/hub", caps)
    driver.find_element_by_xpath("//*[@text='点赞']").click()

二、AI 驱动型(多模态 + 任务规划)

1. Mobile-Agent(阿里达摩院)

  • 核心信息 :仓库:https://github.com/X-PLUG/Mobile-Agent
  • **语言:**Python
  • **适配:**Android 8.0+
  • 部署难度:⭐⭐⭐
  • 核心特点
    • 多模态大模型(GPT-4V/Qwen-VL)驱动,支持跨 App 复杂任务规划;
    • 纯视觉识别,无需控件适配,适配任意 App;
    • 阿里开源,文档完善,适合研究 / 二次开发;
    • 缺点:依赖大模型,无网环境部署困难。

2. AgentBot(跨平台可视化)

  • 核心信息 :仓库:https://github.com/AgentBotLab/AgentBot
  • **语言:**Python+Java
  • 适配:Android 8.0+/iOS(有限)
  • 部署难度:⭐⭐⭐
  • 核心特点
    • 自然语言→任务规划→操作执行闭环,支持多模态大模型;
    • 提供可视化操作面板,无需编写代码;
    • 支持多设备批量管理,可输出 RESTful API;
    • 缺点:iOS 适配仅支持基础操作,复杂任务易出错。

3. MobileRL(强化学习驱动,学术前沿)

  • 核心信息 :仓库:https://github.com/MobileRL/MobileRL
  • **语言:**Python+PyTorch
  • **适配:**Android 9.0+
  • 部署难度:⭐⭐⭐⭐⭐
  • 核心特点
    • 强化学习(RL)驱动,能自主学习操作策略(无需预设规则);
    • 结合 CLIP/ViT 视觉预训练模型,识别鲁棒性极强;
    • 适合学术研究、定制化操作策略优化;
    • 缺点:需深度学习环境,部署门槛高。

三、工业级 / 企业级(高稳定性 + 批量运维)

1. AutoDroid

  • 核心信息 :仓库:https://github.com/AutoDroid/AutoDroid
  • 语言:Java+Python
  • **适配:**Android 6.0+
  • 部署难度:⭐⭐⭐⭐
  • 核心特点
    • 控件 + 视觉双引擎,工业级稳定性,支持 7×24 小时运行;
    • 离线部署,无外网也能运行,内置异常重试 / 故障转移;
    • 支持多设备集群管理,适合企业级运维;
    • 缺点:仅支持安卓,学习成本高。

2. Testin(云测开源版)

  • 核心信息 :仓库:https://github.com/testinlab/ATX
  • **语言:**Python
  • **适配:**Android/iOS
  • 部署难度:⭐⭐⭐
  • 核心特点
    • 基于 UIAutomator2 扩展,支持云设备管理;
    • 内置日志监控、报告生成,适合批量 APP 测试;
    • 企业级功能(如任务调度、设备分组);
    • 缺点:文档偏技术,新手不友好。

四、选型决策表(按需求匹配)

核心需求 优先选择 次选 不选
零基础、简单自动化(点赞 / 刷视频) Airtest UIAutomator2 MobileRL/AutoDroid
跨 App 复杂任务(AI 规划) Mobile-Agent AgentBot Airtest/UIAutomator2
跨平台(iOS+Android) Appium+LLM AgentBot 其他仅安卓项目
企业级 / 批量设备 / 离线运行 AutoDroid Testin MobileRL/AgentBot
学术研究 / 强化学习 MobileRL Mobile-Agent Airtest/UIAutomator2
可视化操作 / 少写代码 AgentBot AirtestIDE Appium/AutoDroid

五、快速上手建议(新手路线)

  1. 第一步:用 Airtest 练手,掌握基础操作(点击、滑动、OCR),5 分钟跑通抖音点赞脚本;
  2. 第二步:如需 AI 驱动,集成 GPT-4o 到 Airtest/Appium,实现自然语言指令→脚本生成→执行;
  3. 第三步:复杂任务 / 企业场景,迁移到 Mobile-Agent/AutoDroid。

六、总结

  1. 轻量自动化:优先选 Airtest/UIAutomator2(新手友好、稳定);
  2. AI 驱动复杂任务:优先选 Mobile-Agent(阿里开源、文档完善);
  3. 跨平台 / 企业级:优先选 Appium+LLM/AutoDroid;
  4. 研究场景:优先选 MobileRL;
  5. 所有项目均支持「视觉识别 + ADB 操作」,核心差异在于是否依赖大模型、是否支持跨平台、稳定性 / 易用性 Trade-off。
相关推荐
探索宇宙真理.1 天前
Vite 任意文件读取漏洞 | CVE-2026-39363复现&研究
经验分享·开源·vite·安全漏洞
好运的阿财1 天前
OpenClaw四种角色详解
人工智能·python·程序人生·microsoft·开源·ai编程
AI_零食1 天前
Flutter 框架跨平台鸿蒙开发 - 颜色听觉化应用
学习·flutter·信息可视化·开源·harmonyos
2301_822703201 天前
大学生体质健康测试全景测绘台:基于鸿蒙Flutter的多维数据可视化与状态管理响应架构
算法·flutter·信息可视化·架构·开源·harmonyos·鸿蒙
独特的螺狮粉1 天前
生命科学实验室经费极简记账簿:基于鸿蒙Flutter的极简主义状态响应与流式布局架构
flutter·华为·架构·开源·harmonyos
进击monkey1 天前
装修行业 × PandaWiki:构建多端产品统一知识库,提升用户体验与运营效率
人工智能·开源·ai知识库
提子拌饭1331 天前
红细胞代偿性增殖与睡眠剥夺的对照演算引擎:基于鸿蒙Flutter的微观流体力学粒子渲染架构
flutter·华为·架构·开源·harmonyos·鸿蒙
AI成长日志1 天前
【GitHub开源项目】推理优化技术栈全览:从PyTorch到专用引擎
pytorch·开源·github
人间打气筒(Ada)1 天前
「码动四季·开源同行」go语言:微服务网关如何作为服务端统一入口点?
微服务·golang·开源·微服务网关·go实战