能控制手机屏幕的开源agent多模态工具

之前探索了能控制电脑桌面的开源agent工具。

这里进一步探索能控制手机屏幕的开源agent多模态工具。

以下是几款可以实现移动端模拟操作的开源工具。

其中，Open-AutoGLM和Airtest功能较为强大和主流，

AI驱动，自然语言交互，多模态理解，面向开发者的高级自动化、智能任务助理

基于视觉语言模型理解屏幕，通过ADB执行操作，可解析用户指令并自动规划任务流程

跨平台，基于图像识别，提供IDE，游戏和App的UI自动化测试、简易脚本录制与回放

通过图像匹配定位UI元素，模拟点击、滑动等操作，支持生成测试报告

与AI助手（如Claude）深度集成作为MCP服务器，将ADB操作（截图、点击、输入等）

通过AI助手直接控制安卓设备进行探索或测试，可以封装为AI可调用的工具

学术研究导向，强化学习平台，主要用于学术研究、开发与评估交互式AI代理

为训练AI代理与移动应用交互而设计，提供标准化的环境和任务集

Appium 是一个开源、跨平台的移动应用自动化测试框架，允许使用一套 API（和代码）来为 iOS、Android 和 Windows 平台上的原生、混合和移动 Web 应用编写自动化测试脚本。

Appium核心理念是"用任何你喜欢的语言和测试框架，来测试任何应用，在任何平台上。"

可以根据主要目的来选择适合的移动端模拟工具，目标是实现高度智能的自动化任务。

如果用自然语言描述复杂操作流程，应优先选择Open-AutoGLM。

如果主要进行UI自动化测试，如回归测试、兼容性测试，Airtest及其图形化IDE会更简单直接。

如果是探索AI模型控制手机，则选mcp-android-emulator，它能通过对话指挥AI助手操作设备。

如果是学术研究、训练AI模型，则选Mobile-Env，它提供了现成的强化学习实验平台。

在Android平台，则需要配置Android Debug Bridge (ADB) 环境，准备安卓真机或模拟器。

能控制计算机桌面的多模态AI agent