能控制手机屏幕的开源agent多模态工具

之前探索了能控制电脑桌面的开源agent工具。

https://blog.csdn.net/liliang199/article/details/156018145

这里进一步探索能控制手机屏幕的开源agent多模态工具。

1 模拟工具

以下是几款可以实现移动端模拟操作的开源工具。

其中,Open-AutoGLM和Airtest功能较为强大和主流,

1.1 Open-AutoGLM

AI驱动,自然语言交互,多模态理解,面向开发者的高级自动化、智能任务助理

基于视觉语言模型理解屏幕,通过ADB执行操作,可解析用户指令并自动规划任务流程

https://github.com/zai-org/Open-AutoGLM

1.2 Airtest

跨平台,基于图像识别,提供IDE,游戏和App的UI自动化测试、简易脚本录制与回放

通过图像匹配定位UI元素,模拟点击、滑动等操作,支持生成测试报告

https://github.com/AirtestProject/Airtest

1.3 mcp-android-emulator

与AI助手(如Claude)深度集成 作为MCP服务器,将ADB操作(截图、点击、输入等)

通过AI助手直接控制安卓设备进行探索或测试,可以封装为AI可调用的工具

https://github.com/Anjos2/mcp-android-emulator

1.4 Mobile-Env

学术研究导向,强化学习平台,主要用于学术研究、开发与评估交互式AI代理

为训练AI代理与移动应用交互而设计,提供标准化的环境和任务集

https://github.com/stefanbschneider/mobile-env

1.5 Appium

Appium 是一个开源、跨平台的移动应用自动化测试框架,允许使用一套 API(和代码)来为 iOS、Android 和 Windows 平台上的原生、混合和移动 Web 应用编写自动化测试脚本。

Appium核心理念是"用任何你喜欢的语言和测试框架,来测试任何应用,在任何平台上。"

https://github.com/appium/appium

2 选择工具

可以根据主要目的来选择适合的移动端模拟工具,目标是实现高度智能的自动化任务。

如果用自然语言描述复杂操作流程,应优先选择Open-AutoGLM。

如果主要进行UI自动化测试,如回归测试、兼容性测试,Airtest及其图形化IDE会更简单直接。

如果是探索AI模型控制手机,则选mcp-android-emulator,它能通过对话指挥AI助手操作设备。

如果是学术研究、训练AI模型,则选Mobile-Env,它提供了现成的强化学习实验平台。

在Android平台,则需要配置Android Debug Bridge (ADB) 环境,准备安卓真机或模拟器。

reference


能控制计算机桌面的多模态AI agent

https://blog.csdn.net/liliang199/article/details/156018145

相关推荐
wulechun3 天前
打造你的专属机器宠物:Py-Apple低成本四足机器人开源项目深度解析与全流程DIY实战指南
智能手机
2601_954706493 天前
云手机技术详解+Python实战调用|2026高稳云手机平台推荐
开发语言·python·智能手机
百度搜知知学社3 天前
贝格手机罗盘2.8版:精准导航与功能升级全解析
智能手机·功能升级·手机罗盘·导航应用·版本解析
xsc-xyc3 天前
用 Tailscale + Syncthing 实现手机、电脑与 NAS 的跨网络文件同步
linux·网络·网络安全·智能手机·电脑
wulechun3 天前
打造全栈人工智能知识图谱:深入解析Ai-Learn开源学习路线与实战资源导航指南
智能手机
wulechun3 天前
从深度研究到全能执行:深度解析字节跳动DeerFlow开源超级智能体框架的架构原理与实战部署指南
智能手机
想你依然心痛4 天前
手机远程控制电脑教程:安卓iOS远程桌面推荐、免费工具配置与远程办公技巧
android·智能手机·电脑
开开心心_Every4 天前
近200个工具的电脑故障修复合集
linux·运维·服务器·leetcode·智能手机·电脑·模拟退火算法
私人珍藏库4 天前
[Android] OldRoll复古胶片相机高级版-徕卡-哈苏-宝丽来等等
数码相机·智能手机·app·工具·软件·多功能
2601_954706494 天前
云手机基础认知、环境配置与自动化实操代码
大数据·智能手机