能控制手机屏幕的开源agent多模态工具

之前探索了能控制电脑桌面的开源agent工具。

https://blog.csdn.net/liliang199/article/details/156018145

这里进一步探索能控制手机屏幕的开源agent多模态工具。

1 模拟工具

以下是几款可以实现移动端模拟操作的开源工具。

其中,Open-AutoGLM和Airtest功能较为强大和主流,

1.1 Open-AutoGLM

AI驱动,自然语言交互,多模态理解,面向开发者的高级自动化、智能任务助理

基于视觉语言模型理解屏幕,通过ADB执行操作,可解析用户指令并自动规划任务流程

https://github.com/zai-org/Open-AutoGLM

1.2 Airtest

跨平台,基于图像识别,提供IDE,游戏和App的UI自动化测试、简易脚本录制与回放

通过图像匹配定位UI元素,模拟点击、滑动等操作,支持生成测试报告

https://github.com/AirtestProject/Airtest

1.3 mcp-android-emulator

与AI助手(如Claude)深度集成 作为MCP服务器,将ADB操作(截图、点击、输入等)

通过AI助手直接控制安卓设备进行探索或测试,可以封装为AI可调用的工具

https://github.com/Anjos2/mcp-android-emulator

1.4 Mobile-Env

学术研究导向,强化学习平台,主要用于学术研究、开发与评估交互式AI代理

为训练AI代理与移动应用交互而设计,提供标准化的环境和任务集

https://github.com/stefanbschneider/mobile-env

1.5 Appium

Appium 是一个开源、跨平台的移动应用自动化测试框架,允许使用一套 API(和代码)来为 iOS、Android 和 Windows 平台上的原生、混合和移动 Web 应用编写自动化测试脚本。

Appium核心理念是"用任何你喜欢的语言和测试框架,来测试任何应用,在任何平台上。"

https://github.com/appium/appium

2 选择工具

可以根据主要目的来选择适合的移动端模拟工具,目标是实现高度智能的自动化任务。

如果用自然语言描述复杂操作流程,应优先选择Open-AutoGLM。

如果主要进行UI自动化测试,如回归测试、兼容性测试,Airtest及其图形化IDE会更简单直接。

如果是探索AI模型控制手机,则选mcp-android-emulator,它能通过对话指挥AI助手操作设备。

如果是学术研究、训练AI模型,则选Mobile-Env,它提供了现成的强化学习实验平台。

在Android平台,则需要配置Android Debug Bridge (ADB) 环境,准备安卓真机或模拟器。

reference


能控制计算机桌面的多模态AI agent

https://blog.csdn.net/liliang199/article/details/156018145

相关推荐
chenbin___1 小时前
在鸿蒙手机上,measure 和 measureInWindow 返回的 y / pageY 在滑动组件后值不变问题
华为·智能手机·harmonyos
乘凉~1 小时前
【Deskreen】一个把电脑画面投屏到手机端的免费工具
智能手机
皮皮虾12342 小时前
云手机 vs 真实手机:全面对比优势与劣势
智能手机
皮皮虾12342 小时前
市面上最常见的云手机有哪些?
智能手机·云手机
Sim14802 小时前
iPhone将内置本地大模型,手机端AI实现0 token成本时代来临?
人工智能·ios·智能手机·iphone
南宫码农6 小时前
Gemma 4 使用教程:从手机到桌面全覆盖
智能手机
wanhengidc6 小时前
云手机的工作原理
运维·服务器·网络·网络协议·智能手机
wanhengidc7 小时前
服务器租用的好处
大数据·运维·服务器·游戏·智能手机
程序员Forlan1 天前
fiddler+手机或模拟器进行APP抓包
前端·智能手机·fiddler
aosky1 天前
手机远程畅玩OpenAI Codex
macos·智能手机·cocoa