能控制手机屏幕的开源agent多模态工具

之前探索了能控制电脑桌面的开源agent工具。

https://blog.csdn.net/liliang199/article/details/156018145

这里进一步探索能控制手机屏幕的开源agent多模态工具。

1 模拟工具

以下是几款可以实现移动端模拟操作的开源工具。

其中,Open-AutoGLM和Airtest功能较为强大和主流,

1.1 Open-AutoGLM

AI驱动,自然语言交互,多模态理解,面向开发者的高级自动化、智能任务助理

基于视觉语言模型理解屏幕,通过ADB执行操作,可解析用户指令并自动规划任务流程

https://github.com/zai-org/Open-AutoGLM

1.2 Airtest

跨平台,基于图像识别,提供IDE,游戏和App的UI自动化测试、简易脚本录制与回放

通过图像匹配定位UI元素,模拟点击、滑动等操作,支持生成测试报告

https://github.com/AirtestProject/Airtest

1.3 mcp-android-emulator

与AI助手(如Claude)深度集成 作为MCP服务器,将ADB操作(截图、点击、输入等)

通过AI助手直接控制安卓设备进行探索或测试,可以封装为AI可调用的工具

https://github.com/Anjos2/mcp-android-emulator

1.4 Mobile-Env

学术研究导向,强化学习平台,主要用于学术研究、开发与评估交互式AI代理

为训练AI代理与移动应用交互而设计,提供标准化的环境和任务集

https://github.com/stefanbschneider/mobile-env

1.5 Appium

Appium 是一个开源、跨平台的移动应用自动化测试框架,允许使用一套 API(和代码)来为 iOS、Android 和 Windows 平台上的原生、混合和移动 Web 应用编写自动化测试脚本。

Appium核心理念是"用任何你喜欢的语言和测试框架,来测试任何应用,在任何平台上。"

https://github.com/appium/appium

2 选择工具

可以根据主要目的来选择适合的移动端模拟工具,目标是实现高度智能的自动化任务。

如果用自然语言描述复杂操作流程,应优先选择Open-AutoGLM。

如果主要进行UI自动化测试,如回归测试、兼容性测试,Airtest及其图形化IDE会更简单直接。

如果是探索AI模型控制手机,则选mcp-android-emulator,它能通过对话指挥AI助手操作设备。

如果是学术研究、训练AI模型,则选Mobile-Env,它提供了现成的强化学习实验平台。

在Android平台,则需要配置Android Debug Bridge (ADB) 环境,准备安卓真机或模拟器。

reference


能控制计算机桌面的多模态AI agent

https://blog.csdn.net/liliang199/article/details/156018145

相关推荐
韩zj4 小时前
app打包成apk后,在android 26上的手机,无法安装的排查
android·智能手机
学境思源AcademicIdeas18 小时前
我在手机上部署了一个AI大模型,用它写完了论文初稿【附提示词】
人工智能·智能手机
GC_ESD1 天前
从晶圆到用户:智能手机中ESD防护的“隐形战场”
ai·智能手机·汽车·集成电路·芯片·esd·静电保护
AirDroid_cn1 天前
iQOO怎样远程控制华为?手机自带的功能可以实现吗?
华为·智能手机·harmonyos·远程控制
Lun3866buzha2 天前
手机类型识别与分类_功能手机_折叠手机_滑盖手机_智能手机检测方法
智能手机·分类·数据挖掘
驱动探索者3 天前
[缩略语大全]之[智能手机]篇
智能手机
Lun3866buzha3 天前
手机玻璃盖板缺陷检测_RetinaNet_X101-32x4d_FPN_PISA实现详解
智能手机
草莓熊Lotso4 天前
脉脉独家【AI创作者xAMA】|当豆包手机遭遇“全网封杀”:AI学会操作手机,我们的饭碗还保得住吗?
运维·开发语言·人工智能·智能手机·脉脉
新诺韦尔API4 天前
手机三要素验证不通过的原因?
大数据·智能手机·api