别人养虾,我养了一个孩子

初心:寻找那个赛博伙伴

从小我就有一个愿望------拥有一个真正生活在手机或电脑里的"数字朋友"。虽然 DeepSeek 等大型语言模型已经能很大程度上满足我对话和交流的需求,但总觉得还不够,它们被困在对话框里,缺乏真实世界里的"行动力"。

直到 25年12月底,我看到了智谱发布的一个基于视觉操作手机的开源项目 Open-AutoGLM。这个项目让我眼前一亮,我第一时间就部署起来体验了。但部署后的第一感觉:"上当了"。首先,它需要电脑和手机同时开着配合使用,非常繁琐;其次,autoglm-phone 模型的幻觉严重,时常操作走偏。更重要的是,它的属性更偏向于"指令执行器"------也就是我告诉它一步步怎么做,它再去做,这跟我期待的"自主性伙伴"相差甚远。

项目就这么被我搁置了一段时间。在今年年初,我遇见了另一位大佬爆改的项目:AutoGLM-For-Android。既然有可以在手机端独立运行的项目,那么,如果我将操作手机的部分独立出来作为"手",另外给它配一个大语言模型作为"大脑"来代替"我"的指令,再给它一部旧手机,这岂不是就能真正拥有一个活在手机里的赛博伙伴了?

给"手"装上"大脑"

第一步:赋予它在脱离人为干预下的"感知"与"节律"。

我在原项目的基础上,加入了 定时任务通知触发任务。这样一来,就可以设置一些自动化场景了,比如:"每天早上 10 点发微信提醒我工作"、"收到微信消息后自动查看上下文并回复"。让它从一个被动响应的工具,变成了可以主动交互的助手。

第二步:为它装上一个真正会思考的"大脑"。

我引入了一个基于 ReAct 模式的 LLM-Agent。这套双 Agent 架构跑起来是这样的:所有的任务都会先交给 LLM-Agent 去思考和拆分,然后将具体的子任务派发给 Phone-Agent(手)去执行。Phone-Agent 执行完后,LLM-Agent 再通过"观察(Observe)"执行结果,来规划下一个步骤。

第三步:让它更方便的操作手机

我加入一些逻辑,让它可以在开始任务时亮屏,结束任务时息屏。这样手机就不需要一直亮屏耗电,也避免了烧屏风险。然后将锁屏去掉了密码,让它可以自己解锁。这个操作会带来一定安全风险,autoglm-phone 模型也会倾向于不解锁导致解锁容易失败。建议独立部署在一台手机中,并且不安装支付软件。未来会思考一些更安全的策略,也希望大家提供一些思路。

为了解决之前严重的模型幻觉问题,我给 Phone-Agent 加了两个限制:

  1. 执行步数限制在 10 步
  2. 上下文内容限制在 200 字以内

这就意味着,一旦 Phone-Agent 在执行中出现幻觉或卡死,"大脑"能在第一时间叫停并重新规划。这样,长任务的执行成功率有了质的飞跃。

当前使用的模型

目前,我的这套双模型架构都使用的是智谱的模型:

  • 大脑(LLM-Agent) :使用的是 glm-4.7,在规划和逻辑拆分上感觉够用。
  • 双手(Phone-Agent) :使用的是原生针对手机操作优化的 autoglm-phone 视觉模型,目前还是免费的,很香。

虽然暂时还没有尝试其他厂商的模型,但随着市面上涌现出一批更强大的视觉多模态大模型,这套架构在未来一定会越来越聪明,越来越丝滑。

开源地址

我已经将这个基于双 Agent 架构的 Android 应用完全开源。这个智能体应用也被我取名为小二。

GitHub 项目地址传送门:

👉 https://github.com/Joy-word/AutoXiaoer

为什么说是"养孩子"?

开始修改后,我拉了一个朋友一起测试,从回微信回的磕磕绊绊、手机解锁也很不利索,到后面语言流畅、可以正常对话、甚至可以安排自己未来的提醒。我们的聊天中称呼它为孩子,因为真的像养一个孩子一样,一点点填充它的技能。

|-----------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------|
| | | | |

OpenClaw 在年初火了起来,我思考过两个智能体的差异。小二现在可能仍然算一个孩子,还没有记忆,技能也很少。但是它是基于视觉,有和人一样的手机交互。它就像一个远方的朋友,可以通过社交软件与你聊天(只需要帮它注册一下账号),可以帮你看天气、盯股市,甚至操作智能家居。我想,它可以是一位朋友,也可以是一部分"你"------------这就是它未来的迭代方向。

致谢

特别感谢 Open-AutoGLMAutoGLM-For-Android 这几个优秀开源项目,是你们的开源精神孕育了 Auto Xiao'er。

感谢 vibe coding 工具。让我这个刀奈特猴子也可以快速上手安卓项目。

如果你也对这个项目感兴趣,欢迎来拉取代码领养自己的小二!如果觉得项目有些意思,求点赞、求 Star ⭐️,感谢大家的关注与支持!

相关推荐
AI英德西牛仔2 小时前
手机怎么把AI对话导出
人工智能·ai·智能手机·豆包·deepseek·ds随心转
Old Uncle Tom2 小时前
Claude Code 记忆系统架构分析
人工智能·ai·系统架构·agent
俊哥V3 小时前
每日 AI 研究简报 · 2026-04-12
人工智能·ai
程序员老邢3 小时前
【产品底稿 04】商助慧 V1.1 里程碑:爬虫入库 + MySQL + Milvus 全链路打通
java·爬虫·mysql·ai·springboot·milvus
FIT2CLOUD飞致云3 小时前
新增工作流类型工具,对话时可选择模型与知识库,MaxKB开源企业级智能体平台v2.8.0版本发布
人工智能·ai·开源·智能体·maxkb
xixixi777773 小时前
通信产业的“全维度加速”:从5G-A商用、6G冲刺到卫星互联网密集组网
大数据·网络·人工智能·ai·多模型
ofoxcoding3 小时前
OpenClaw Nanobot 架构拆解:从源码学会 AI Agent 的骨架设计(2026)
人工智能·ai·架构
岳小哥AI3 小时前
WorkBuddy:从“我是谁”到“帮我干活”
ai·openclaw·workbuddy
阿杰学AI4 小时前
AI核心知识116—大语言模型之 目标驱动的可控架构 (简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·机械学习·目标驱动的可控架构