AppAgentx 开源AI手机操控使用分享

项目地址: https://appagentx.github.io/?utm_source=ai-bot.cn

GitHub仓库: https://github.com/Westlake-AGI-Lab/AppAgentX/tree/main

arXiv技术论文:https://arxiv.org/pdf/2503.02268

AppAgentx是什么:

AppAgentX西湖大学 推出的一种自我进化式 GUI 代理框架 。它通过从执行历史 中学习并抽象出高级动作 ,来提升 智能手机交互的效率和智能性 。该框架利用记忆与进化机制 实现持续优化 ,性能在测试中显著优于现有方法,为智能代理开辟了新方向。

AppAgentx的主要功能:

自动归纳高效操作模式:检测任务执行中的重复性操作,自动总结为高级别的"一键"操作,简化操作流程。

减少重复计算,提升执行效率:基于记忆和复用执行策略,避免重复推理,让任务执行更高效。

基于视觉的通用操作能力::依赖屏幕视觉信息进行操作,无需后端API支持,在不同软件和设备上通用,实现"即插即用"。

**支持复杂任务和跨应用操作: :**像人类一样操作各种应用程序,支持复杂的跨应用任务,例如从网页爬取信息后填入Excel,或在多个软件之间联动操作。

AppAgentX的应用场景:

自动化日常操作:自动完成手机设置调整、应用内任务等,减少手动操作。

智能助手增强: 集成到智能助手,帮助用户快速执行复杂任务**。**

**企业流程自动化:**用于企业数据录入、报表生成等重复性任务,提高效率。

**跨应用任务管理:**支持在不同应用间切换和操作,实现跨平台自动化。

辅助特殊人群: 简化操作流程,帮助老年人或身体不便者更轻松使用手机。

开始使用

LLM 设置和依赖项

本项目使用 LangChain 和 LangGraph 构建代理框架。建议按照其官网建议的安装方法进行安装。其他依赖项请使用pip install -r requirements.txt。LLM 配置请在 文件中调整相关设置config.py

数据库部署与连接

我们使用 Neo4j 作为代理的内存存储,并利用其 Cypher 查询语言来方便地检索节点。向量存储则使用 Pinecone。请确保在config.py文件中配置了必要的 API 和密钥。更多信息,请访问++Neo4j 官网++ 和++Pinecone 官网++。

config.py 配置文件

你需要安装Neo4j 到本地,进行部署和运行,同样的Pinecone需要API_KEY

屏幕识别与特征提取部署

为了简化部署,我们使用 Docker 将屏幕识别和特征提取服务容器化 。有关启动容器的说明,请参阅后端文件夹中的 README 文件。请注意,这可能需要 Docker 的 GPU 支持;有关配置,请参阅Docker 官方文档 。这种模块化方法可以轻松替换不同的屏幕解析和特征提取工具,从而显著增强模型的可扩展性。如果您需要部署,请参阅当前项目后端文件夹中的++README 文件。++

启动演示

要使用此项目,您首先需要配置ADB(Android Debug Bridge)以将您的 Android 设备连接到您的计算机。

设置 ADB 并连接您的设备
3.2 在您的电脑上安装 ADB

下载并安装Android Debug Bridge (adb) --- 一种命令行工具,可实现您的电脑和 Android 设备之间的通信。

  • 在您的 Android 设备上启用 USB 调试:

  • 转到"设置" > "开发人员选项"并启用"USB 调试"。

  • 使用 USB 数据线将您的设备连接到 PC 。

推荐使用Qtscrcpy工具代替一下

同样的可以使用Android studio的工具进行链接

启动 Gradio

设置好设备或模拟器后,即可启动项目。我们使用Gradio作为前端界面。使用以下命令之一启动演示:

python demo.py 使用前提是你已经安装好了python环境

或者

gradio demo.py

现在,AppAgent就可以使用了!🚀

综上所述的仅适合你是有CUDA显卡的人适合. macos可以直接退出了,因为博主踩坑了. 我还在尝试使用,在macos上测试成功,有待实现.

相关推荐
Tiandaren1 小时前
Selenium 4 教程:自动化 WebDriver 管理与 Cookie 提取 || 用于解决chromedriver版本不匹配问题
selenium·测试工具·算法·自动化
学术小八1 小时前
2025年人工智能、虚拟现实与交互设计国际学术会议
人工智能·交互·vr
仗剑_走天涯2 小时前
基于pytorch.nn模块实现线性模型
人工智能·pytorch·python·深度学习
cnbestec3 小时前
协作机器人UR7e与UR12e:轻量化设计与高负载能力助力“小而美”智造升级
人工智能·机器人·协作机器人·ur协作机器人·ur7e·ur12e
zskj_zhyl3 小时前
毫米波雷达守护银发安全:七彩喜跌倒检测仪重构居家养老防线
人工智能·安全·重构
gaosushexiangji4 小时前
利用sCMOS科学相机测量激光散射强度
大数据·人工智能·数码相机·计算机视觉
coderlin_4 小时前
BI布局拖拽 (1) 深入react-gird-layout源码
android·javascript·react.js
2501_915918414 小时前
Fiddler中文版全面评测:功能亮点、使用场景与中文网资源整合指南
android·ios·小程序·https·uni-app·iphone·webview
ai小鬼头5 小时前
AIStarter新版重磅来袭!永久订阅限时福利抢先看
人工智能·开源·github
说私域6 小时前
从品牌附庸到自我表达:定制开发开源AI智能名片S2B2C商城小程序赋能下的营销变革
人工智能·小程序