能控制手机屏幕的开源agent多模态工具

之前探索了能控制电脑桌面的开源agent工具。

https://blog.csdn.net/liliang199/article/details/156018145

这里进一步探索能控制手机屏幕的开源agent多模态工具。

1 模拟工具

以下是几款可以实现移动端模拟操作的开源工具。

其中,Open-AutoGLM和Airtest功能较为强大和主流,

1.1 Open-AutoGLM

AI驱动,自然语言交互,多模态理解,面向开发者的高级自动化、智能任务助理

基于视觉语言模型理解屏幕,通过ADB执行操作,可解析用户指令并自动规划任务流程

https://github.com/zai-org/Open-AutoGLM

1.2 Airtest

跨平台,基于图像识别,提供IDE,游戏和App的UI自动化测试、简易脚本录制与回放

通过图像匹配定位UI元素,模拟点击、滑动等操作,支持生成测试报告

https://github.com/AirtestProject/Airtest

1.3 mcp-android-emulator

与AI助手(如Claude)深度集成 作为MCP服务器,将ADB操作(截图、点击、输入等)

通过AI助手直接控制安卓设备进行探索或测试,可以封装为AI可调用的工具

https://github.com/Anjos2/mcp-android-emulator

1.4 Mobile-Env

学术研究导向,强化学习平台,主要用于学术研究、开发与评估交互式AI代理

为训练AI代理与移动应用交互而设计,提供标准化的环境和任务集

https://github.com/stefanbschneider/mobile-env

1.5 Appium

Appium 是一个开源、跨平台的移动应用自动化测试框架,允许使用一套 API(和代码)来为 iOS、Android 和 Windows 平台上的原生、混合和移动 Web 应用编写自动化测试脚本。

Appium核心理念是"用任何你喜欢的语言和测试框架,来测试任何应用,在任何平台上。"

https://github.com/appium/appium

2 选择工具

可以根据主要目的来选择适合的移动端模拟工具,目标是实现高度智能的自动化任务。

如果用自然语言描述复杂操作流程,应优先选择Open-AutoGLM。

如果主要进行UI自动化测试,如回归测试、兼容性测试,Airtest及其图形化IDE会更简单直接。

如果是探索AI模型控制手机,则选mcp-android-emulator,它能通过对话指挥AI助手操作设备。

如果是学术研究、训练AI模型,则选Mobile-Env,它提供了现成的强化学习实验平台。

在Android平台,则需要配置Android Debug Bridge (ADB) 环境,准备安卓真机或模拟器。

reference


能控制计算机桌面的多模态AI agent

https://blog.csdn.net/liliang199/article/details/156018145

相关推荐
玉梅小洋2 天前
手机 App 云端存储云服务选型指南
人工智能·智能手机·手机·工具开发·手机app开发
玉梅小洋2 天前
手机 App 跨平台框架统一目录构建
智能手机·手机·app开发
东哥笔迹2 天前
高通骁龙Android手机平台EIS基础pipeline(二)
智能手机
jian110583 天前
Android studio 调试flutter 运行自己的苹果手机上
flutter·智能手机·android studio
小锋学长生活大爆炸3 天前
【工具】手机控制iPixel LED屏实现转向和刹车联动、语音控制显示内容
智能手机·工具·led·车机·智能·diy·ipixel
Boxsc_midnight3 天前
【openclaw+imessage】【免费无限流量】集成方案,支持iphone手机+macos
ios·智能手机·iphone
RichardLau_Cx3 天前
【实用工具】2026最新视频压缩工具推荐(PC/在线/手机/命令行全覆盖)
智能手机
感谢地心引力3 天前
安卓、苹果手机无线投屏到Windows
android·windows·ios·智能手机·安卓·苹果·投屏
DS数模3 天前
2026年美赛MCM A题保姆级教程思路分析|A题:智能手机电池消耗建模
数学建模·智能手机·美国大学生数学建模竞赛·美国大学生数学建模·2026美赛·2026美赛a题
TheNextByte13 天前
如何打印Android手机联系人?
android·智能手机