移动端智能体开源项目清单

移动端智能体核心是自然语言驱动 + 视觉 / 控件识别 + 移动端自动化」,以下按功能定位、技术栈、易用性分类整理主流开源项目,覆盖「轻量自动化→多模态 AI 驱动→工业级运维」场景。

一、轻量易用型(新手首选,无大模型依赖)

1. Airtest(网易开源,最成熟)

  • 核心信息 :仓库:https://github.com/AirtestProject/Airtest

  • **语言:**Python适配:Android/iOS 全版本

  • 部署难度:⭐(零基础 5 分钟上手)

  • 核心特点

    • 纯视觉 + 控件双驱动,支持「录制操作→生成脚本」,开箱即用;
    • 内置 OCR、截图对比、坐标操作,无需编程基础;
    • 配套可视化工具 AirtestIDE,拖拽式编写脚本;
    • 长期维护,社区文档完善,问题易排查。
  • 快速上手

    pip install airtest pocoairtest

    核心操作示例(打开抖音点赞)

    from airtest.core.api import *
    connect_device("Android:///")
    start_app("com.ss.android.ugc.aweme")
    click([900, 500]) # 点赞坐标

2. UIAutomator2(控件驱动,精准度高

  • 核心信息 :仓库:https://github.com/openatx/uiautomator2

  • **语言:**Python

  • **适配:**Android 4.4+部署难度:⭐⭐

  • 核心特点

    • 基于安卓原生 UIAutomator,控件识别准确率接近 100%(比纯视觉稳定);
    • 支持免 ROOT 操作,无需安装 APK 到手机;
    • 可结合 OpenCV/OCR 实现视觉 + 控件混合驱动;
    • 适合精准操作(如点击按钮、输入文字)。
  • 快速上手

    复制代码
    pip install uiautomator2
    python -m uiautomator2 init  # 手机端安装辅助服务
    # 核心操作示例
    import uiautomator2 as u2
    d = u2.connect()  # 连接手机
    d.app_start("com.ss.android.ugc.aweme")
    d.click(x=900, y=500)  # 点赞

3. Appium(跨平台工业级)

  • 核心信息 :仓库:https://github.com/appium/appium

  • **语言:**Python/Java/Node.js

  • **适配:**Android/iOS 全版本

  • 部署难度:⭐⭐

  • 核心特点

    • 全球最成熟的移动端自动化框架,控件驱动为主;
    • 支持 iOS/Android 全平台,企业级应用广泛;
    • 生态完善,可集成 LLM(如 GPT-4o)实现自然语言驱动;
    • 缺点:需配置安卓 /iOS SDK,新手入门稍复杂。
  • 快速上手

    复制代码
    # 安装Appium客户端
    pip install Appium-Python-Client
    # 核心操作示例(需先启动Appium服务)
    from appium import webdriver
    caps = {"platformName":"Android", "appPackage":"com.ss.android.ugc.aweme", "appActivity":".main.MainActivity"}
    driver = webdriver.Remote("http://localhost:4723/wd/hub", caps)
    driver.find_element_by_xpath("//*[@text='点赞']").click()

二、AI 驱动型(多模态 + 任务规划)

1. Mobile-Agent(阿里达摩院)

  • 核心信息 :仓库:https://github.com/X-PLUG/Mobile-Agent
  • **语言:**Python
  • **适配:**Android 8.0+
  • 部署难度:⭐⭐⭐
  • 核心特点
    • 多模态大模型(GPT-4V/Qwen-VL)驱动,支持跨 App 复杂任务规划;
    • 纯视觉识别,无需控件适配,适配任意 App;
    • 阿里开源,文档完善,适合研究 / 二次开发;
    • 缺点:依赖大模型,无网环境部署困难。

2. AgentBot(跨平台可视化)

  • 核心信息 :仓库:https://github.com/AgentBotLab/AgentBot
  • **语言:**Python+Java
  • 适配:Android 8.0+/iOS(有限)
  • 部署难度:⭐⭐⭐
  • 核心特点
    • 自然语言→任务规划→操作执行闭环,支持多模态大模型;
    • 提供可视化操作面板,无需编写代码;
    • 支持多设备批量管理,可输出 RESTful API;
    • 缺点:iOS 适配仅支持基础操作,复杂任务易出错。

3. MobileRL(强化学习驱动,学术前沿)

  • 核心信息 :仓库:https://github.com/MobileRL/MobileRL
  • **语言:**Python+PyTorch
  • **适配:**Android 9.0+
  • 部署难度:⭐⭐⭐⭐⭐
  • 核心特点
    • 强化学习(RL)驱动,能自主学习操作策略(无需预设规则);
    • 结合 CLIP/ViT 视觉预训练模型,识别鲁棒性极强;
    • 适合学术研究、定制化操作策略优化;
    • 缺点:需深度学习环境,部署门槛高。

三、工业级 / 企业级(高稳定性 + 批量运维)

1. AutoDroid

  • 核心信息 :仓库:https://github.com/AutoDroid/AutoDroid
  • 语言:Java+Python
  • **适配:**Android 6.0+
  • 部署难度:⭐⭐⭐⭐
  • 核心特点
    • 控件 + 视觉双引擎,工业级稳定性,支持 7×24 小时运行;
    • 离线部署,无外网也能运行,内置异常重试 / 故障转移;
    • 支持多设备集群管理,适合企业级运维;
    • 缺点:仅支持安卓,学习成本高。

2. Testin(云测开源版)

  • 核心信息 :仓库:https://github.com/testinlab/ATX
  • **语言:**Python
  • **适配:**Android/iOS
  • 部署难度:⭐⭐⭐
  • 核心特点
    • 基于 UIAutomator2 扩展,支持云设备管理;
    • 内置日志监控、报告生成,适合批量 APP 测试;
    • 企业级功能(如任务调度、设备分组);
    • 缺点:文档偏技术,新手不友好。

四、选型决策表(按需求匹配)

核心需求 优先选择 次选 不选
零基础、简单自动化(点赞 / 刷视频) Airtest UIAutomator2 MobileRL/AutoDroid
跨 App 复杂任务(AI 规划) Mobile-Agent AgentBot Airtest/UIAutomator2
跨平台(iOS+Android) Appium+LLM AgentBot 其他仅安卓项目
企业级 / 批量设备 / 离线运行 AutoDroid Testin MobileRL/AgentBot
学术研究 / 强化学习 MobileRL Mobile-Agent Airtest/UIAutomator2
可视化操作 / 少写代码 AgentBot AirtestIDE Appium/AutoDroid

五、快速上手建议(新手路线)

  1. 第一步:用 Airtest 练手,掌握基础操作(点击、滑动、OCR),5 分钟跑通抖音点赞脚本;
  2. 第二步:如需 AI 驱动,集成 GPT-4o 到 Airtest/Appium,实现自然语言指令→脚本生成→执行;
  3. 第三步:复杂任务 / 企业场景,迁移到 Mobile-Agent/AutoDroid。

六、总结

  1. 轻量自动化:优先选 Airtest/UIAutomator2(新手友好、稳定);
  2. AI 驱动复杂任务:优先选 Mobile-Agent(阿里开源、文档完善);
  3. 跨平台 / 企业级:优先选 Appium+LLM/AutoDroid;
  4. 研究场景:优先选 MobileRL;
  5. 所有项目均支持「视觉识别 + ADB 操作」,核心差异在于是否依赖大模型、是否支持跨平台、稳定性 / 易用性 Trade-off。
相关推荐
wdfk_prog2 小时前
MAX14830 可移植 C 驱动实现分析:一个适合多串口扩展场景的开源基础版本
c语言·开发语言·开源
计算机魔术师2 小时前
一键沉浸式体验:清华开源OpenMAIC,重塑多智能体学习新范式
学习·typescript·开源·多智能体·openmaic
悟空码字2 小时前
免费使用了!开源一款自习室预约系统,支持门店浏览、座位选择、时间预约等核心功能
开源·预约系统·自习室预约系统
MuShan-bit2 小时前
CSDN-推荐开源项目-auto-x-to-wechat
爬虫·微信·开源·node.js·twitter
亥时科技2 小时前
开源赋能低空经济:AI 无人机一体化平台如何破解行业应用难题
人工智能·开源·无人机
AI成长日志2 小时前
【datawhale】hello agents开源课程第3章学习记录:大语言模型基础学习心得博客
学习·语言模型·开源
进击monkey3 小时前
PandaWiki AI原生+开源私有化,降本增效首选
人工智能·开源·ai-native·ai知识库
HelloGitHub3 小时前
GitHub 悄悄起飞的开源项目,想让 AI 接管你的电脑
开源·github