别人养虾，我养了一个孩子

初心：寻找那个赛博伙伴

从小我就有一个愿望------拥有一个真正生活在手机或电脑里的"数字朋友"。虽然 DeepSeek 等大型语言模型已经能很大程度上满足我对话和交流的需求，但总觉得还不够，它们被困在对话框里，缺乏真实世界里的"行动力"。

直到 25年12月底，我看到了智谱发布的一个基于视觉操作手机的开源项目 Open-AutoGLM。这个项目让我眼前一亮，我第一时间就部署起来体验了。但部署后的第一感觉："上当了"。首先，它需要电脑和手机同时开着配合使用，非常繁琐；其次，autoglm-phone 模型的幻觉严重，时常操作走偏。更重要的是，它的属性更偏向于"指令执行器"------也就是我告诉它一步步怎么做，它再去做，这跟我期待的"自主性伙伴"相差甚远。

项目就这么被我搁置了一段时间。在今年年初，我遇见了另一位大佬爆改的项目：AutoGLM-For-Android。既然有可以在手机端独立运行的项目，那么，如果我将操作手机的部分独立出来作为"手"，另外给它配一个大语言模型作为"大脑"来代替"我"的指令，再给它一部旧手机，这岂不是就能真正拥有一个活在手机里的赛博伙伴了？

给"手"装上"大脑"

第一步：赋予它在脱离人为干预下的"感知"与"节律"。

我在原项目的基础上，加入了 定时任务 和 通知触发任务。这样一来，就可以设置一些自动化场景了，比如："每天早上 10 点发微信提醒我工作"、"收到微信消息后自动查看上下文并回复"。让它从一个被动响应的工具，变成了可以主动交互的助手。

第二步：为它装上一个真正会思考的"大脑"。

我引入了一个基于 ReAct 模式的 LLM-Agent。这套双 Agent 架构跑起来是这样的：所有的任务都会先交给 LLM-Agent 去思考和拆分，然后将具体的子任务派发给 Phone-Agent（手）去执行。Phone-Agent 执行完后，LLM-Agent 再通过"观察（Observe）"执行结果，来规划下一个步骤。

第三步：让它更方便的操作手机

我加入一些逻辑，让它可以在开始任务时亮屏，结束任务时息屏。这样手机就不需要一直亮屏耗电，也避免了烧屏风险。然后将锁屏去掉了密码，让它可以自己解锁。这个操作会带来一定安全风险，autoglm-phone 模型也会倾向于不解锁导致解锁容易失败。建议独立部署在一台手机中，并且不安装支付软件。未来会思考一些更安全的策略，也希望大家提供一些思路。

为了解决之前严重的模型幻觉问题，我给 Phone-Agent 加了两个限制：

执行步数限制在 10 步。
上下文内容限制在 200 字以内。

这就意味着，一旦 Phone-Agent 在执行中出现幻觉或卡死，"大脑"能在第一时间叫停并重新规划。这样，长任务的执行成功率有了质的飞跃。

当前使用的模型

目前，我的这套双模型架构都使用的是智谱的模型：

大脑（LLM-Agent） ：使用的是 glm-4.7，在规划和逻辑拆分上感觉够用。
双手（Phone-Agent） ：使用的是原生针对手机操作优化的 autoglm-phone 视觉模型，目前还是免费的，很香。

虽然暂时还没有尝试其他厂商的模型，但随着市面上涌现出一批更强大的视觉多模态大模型，这套架构在未来一定会越来越聪明，越来越丝滑。

开源地址

我已经将这个基于双 Agent 架构的 Android 应用完全开源。这个智能体应用也被我取名为小二。

GitHub 项目地址传送门：

👉 https://github.com/Joy-word/AutoXiaoer

为什么说是"养孩子"？

开始修改后，我拉了一个朋友一起测试，从回微信回的磕磕绊绊、手机解锁也很不利索，到后面语言流畅、可以正常对话、甚至可以安排自己未来的提醒。我们的聊天中称呼它为孩子，因为真的像养一个孩子一样，一点点填充它的技能。

|-----------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------|
| | | | |

OpenClaw 在年初火了起来，我思考过两个智能体的差异。小二现在可能仍然算一个孩子，还没有记忆，技能也很少。但是它是基于视觉，有和人一样的手机交互。它就像一个远方的朋友，可以通过社交软件与你聊天（只需要帮它注册一下账号），可以帮你看天气、盯股市，甚至操作智能家居。我想，它可以是一位朋友，也可以是一部分"你"------------这就是它未来的迭代方向。

致谢

特别感谢 Open-AutoGLM 和 AutoGLM-For-Android 这几个优秀开源项目，是你们的开源精神孕育了 Auto Xiao'er。

感谢 vibe coding 工具。让我这个刀奈特猴子也可以快速上手安卓项目。

如果你也对这个项目感兴趣，欢迎来拉取代码领养自己的小二！如果觉得项目有些意思，求点赞、求 Star ⭐️，感谢大家的关注与支持！