手机上的全能智能体,Auto小二正式开源

从小我就有一个愿望------拥有一个真正生活在手机或电脑里的"数字朋友"。它可以像我远方的朋友一样,和我通过社交软件聊天,给我分享它看到的有趣的事。市面的大模型虽然聪明,但往往被困在对话框里,缺乏真实世界里的"行动力";而很多手机自动化项目又更偏向于"指令执行器"(我一步步教它怎么做,它再去执行),包括豆包手机,定位也是偏向于手机助手的角色。

但是,如果我们把这个需求拆分,把操作手机的部分作为"手",另外给它配一个大语言模型作为"大脑"来代替人为指令,再把它装进一部安卓手机里独立运行,是不是就能真正拥有一个活在手机里的赛博伙伴了?

基于这个想法,我开发了 Auto小二 ------ 一个基于双 Agent 架构的纯端侧安卓智能体应用,现已完全开源!

核心架构:"大脑"与"双手"的完美协作

Auto小二摒弃了传统的单线指令执行,引入了基于 ReAct 模式的 双 Agent 架构

  • 大脑(LLM-Agent) :采用 glm-4.7 模型。负责维持人设、思考、逻辑拆分、任务规划。所有的模糊任务都会先交给它进行消化,然后派发具体的子步骤。
  • 双手(Phone-Agent) :采用智谱开源的 autoglm-phone 视觉模型。负责在图形界面上执行具体的点击、滑动、输入等操作。

LLM-Agent 采用 ReAct 架构,在执行过程中,Phone-Agent 执行完每一步后,LLM-Agent 会通过"观察(Observe)"当前的屏幕结果,来动态规划下一个行为。

核心能力与特性亮点

1. 突破被动响应:自主感知与主动交互

Auto小二不仅仅是一个你问我答的工具,它拥有脱离人为干预的"节律"。

  • 定时任务:"每天早上 10 点发微信提醒我工作"、"下午 3 点帮我盯一下某只股票"。
  • 通知触发:收到微信消息后,自动读取上下文并回复。真正做到主动与真实世界交互。

2. 人类级别的视觉操作能力

无需复杂的 API 接入,它直接通过视觉理解手机屏幕。这意味着它可以操作手机上的任何 App

  • 帮你刷朋友圈、点赞
  • 帮你查天气、订外卖
  • 和你的朋友在社交软件上聊天
  • 甚至操作你家里的智能家居 App

3. 高稳定性防幻觉机制

视觉模型在长流程操作中极易出现"幻觉"或卡死。为此,我为 Phone-Agent 增加了两道限制:

  1. 单次执行步数限制在 10 步
  2. 上下文内容限制在 200 字以内
    一旦"双手"在操作中走偏或卡死,"大脑"能在第一时间发现并叫停,进行重新规划。这让长任务的执行成功率有了质的飞跃。

4. 贴心的电源与屏幕管理

为了让它能24小时运行在一台备用机上,系统会在开始任务时自动唤醒亮屏并解锁,结束任务时自动息屏。不仅省电,还完美避免了长期运行导致的烧屏风险。

极简且高效的设计理念

不同于"龙虾" "豆包AI手机",Auto小二的定位非常纯粹------一个轻量级的赛博伙伴。它目前并没有沉重的长期记忆库,也没有复杂的 Skills 插件系统。它的人设完全由系统提示词赋予,所有的回复与交互都直接基于社交软件的实时上下文。

面临需要"记住"的长期需求时,它会聪明地将其直接转换为未来待执行的自动化任务。得益于这种"事件驱动"的无状态设计,系统抛弃了繁冗的上下文历史,每次任务都能独立、轻快地运行,在保证极高执行切分效率的同时,也将 Token 的消耗降到了极致。

它是一个可以通过社交软件与你聊天的远方朋友,也是一个全能的手机私人助理。随着未来多模态模型的迭代,它的能力边界还可以无限拓展。这也就是它的终极进化方向------是一位朋友,也是一部分"你"。

开源与致谢

本项目站在了巨人的肩膀上,特别感谢 Open-AutoGLMAutoGLM-For-Android 等优秀开源项目,孕育了 AutoXiaoer 的诞生。另外也感谢 vibe coding 的方式,极大降低了安卓开发的门槛。

GitHub 项目地址传送门:

👉 https://github.com/Joy-word/AutoXiaoer

如果你对这个项目感兴趣,家里正好有一台闲置的安卓机,欢迎拉取代码领养属于你的"小二"!也欢迎提 Issue、PR 共同完善它。如果觉得项目有意思,求点赞、求 Star ⭐️,感谢支持!

相关推荐
心之伊始7 分钟前
Spring AI Tool Calling 实战:让 Java Agent 调用本地 Bean 工具方法
java·spring boot·agent·spring ai·tool calling
举个栗子。13 分钟前
AI智能体教程合集
ai
xin_yao_xin15 分钟前
Claude Code 安装与 DeepSeek-V4 模型配置(2026 最新)
人工智能·ai·大模型·deepseek·claude code
炎武丶航26 分钟前
LeNet-5深度学习详解:从手写数字识别到代码实战
人工智能·python·深度学习·机器学习·ai·cnn·lenet
曦尧30 分钟前
GitHub - addyosmani/agent-skills:面向 AI 编程智能体的生产级工程技能 · GitHub
ai·自动化
xingyuzhisuan34 分钟前
缓存命中率提升方案:从 30% 优化至 82% 全流程优化记录
java·开发语言·缓存·ai
guyoung43 分钟前
BoxAgnts 工具系统(6)——多 Provider 适配与 Agent 查询循环
rust·agent·ai编程
AI 小老六1 小时前
Google AX 控制面拆解:分布式 Agent 如何把断点恢复、审计策略和执行调度收进同一条链路
人工智能·分布式·后端·ai·架构·ai编程
阿部多瑞 ABU1 小时前
数据循环悖论:AI检测模型的技术局限与生态灾难
大数据·人工智能·安全·机器学习·ai·自然语言处理
x-cmd1 小时前
[260612] x-cmd v0.9.8:x feishu 发送消息支持 Markdown + 卡片,让 x claw 接入飞书后消息不再干巴巴
飞书·agent·claude·命令行·x-cmd·openclaw