Build 00 / 拒绝“套壳”:我想要一个真正的超级 AI 助手,以及这个系列的初衷

最近技术圈挺热闹,但我只觉得浮躁。

现在随便找个人,给大模型套个网页壳子就敢叫"智能助手";在 System Prompt 里塞一段指令,就敢标榜自己是"AI Agent"。更离谱的是,这种风气下,一堆不明真相的小白在后面跟风吹捧。说实话,这挺不利于技术发展的。

我写这个系列的初衷很简单:我想扯掉这些"套壳"产品的底裤,带大家看看一个真正的极客项目是怎么从第一行代码长出来的。

一. 聊聊那些离谱的现状

作为开发者,有些事我看不下去:

复读机博主:看到一个开源项目火了(比如最近的 OpenClawd),就赶紧出一篇稿子全网吹。你问他里面的核心编排逻辑是什么?他可能连本地部署都没跑过。这种文章除了骗流量,毫无营养。

"大龙虾"代部署:开源项目本该是拿来二开、做深度的。结果国内现状是,一些厂商直接翻译套壳,技术博主也不分析实现思路,更多的是部署炫技。更有甚者在咸鱼上收费帮人部署,把开源当成收割小白的工具,做得太没底线。

工具与能力的错位:现在的技术分享,大多在教你怎么"一键部署"。没人讲实现思路,没人讲技术选型背后的权衡。技术不应该是这种被包装出来的玄学。

二. 因为热爱,所以死磕

之所以有精力整理这些文章,是因为最近有些时间,我比一般的开发者更加自由轻松,没有工作的束缚。

对我来说,技术不单是谋生手段,更是我的爱好。我享受那种各种想法在自己手底下慢慢呈现出来的感觉。既然没有 KPI 的压力,我就想一个人做点极客的事情。EchoMindBot不是为了割韭菜,它是对我心中"超级助手"的一次工程实现。

三. EchoMindBot 全局技术架构图

为了实现一个不套壳的助手,我设计了一套能进化的架构:

为了实现一个不套壳、具备"自主性"的超级助手,我将EchoMindBot的技术栈压榨到了每一行 Rust 代码中。

1. 宿主层 (Host Layer):基于 Tauri 2.0 的原生性能革命

  • 内存与线程模型:我们摒弃了 Electron 的多进程 Chromium 架构,转而利用 Tauri 2.0 的Webview2 (Win) / WKWebView (macOS)。这种方案让待机内存占用从 GB 级断崖式下跌至 MB 级。

  • IPC 通信协议:前后端通过高频的 tauri::invoke 与 emit 进行消息交换。在我们的 lib.rs 中,23 个独立的命令模块(Commands)通过强类型路由进行解耦,确保了极高的指令分发效率。

2. 认知层 (Brain Layer):分层思考与结构化记忆引擎

  • 异步思考周期 (Brain Thinking):brain_thinking.rs 维护了一个独立的调度器(Scheduler)。它不是被动响应,而是在系统空闲时段自主执行反思(Reflection)、联网学习与通知评判,这种"后台心跳"让 Bot 具备了类似生命的进化能力。
  • 混合存储策略 (RAG):主库SQLite处理 22 张以上的关联表,负责用户偏好与任务状态的持久化;向量数据库则通过 Embedding + 余弦相似度实现语义检索。每一条注入 LLM 的 Prompt 都会动态挂载 Top 3 的相关记忆片段,相似度阈值严格控制在 0.5 以上。

3. Agent 核心 (Agent Core):全权托管的指挥部

  • 逻辑闭环循环:核心 ai.rs 实现了严密的 Agent Loop。在解析工具调用(TOOL_CALL)的过程中,系统不仅执行操作,更会实时进行自我复盘(Self-Reflection),根据环境反馈修正下一步计划,直至逻辑闭环。
  • 多模态与经济调度:ai_client_factory.rs 负责全权托管模型的调度逻辑。它会根据任务复杂度自主切换旗舰模型或轻量模型,并内置了严苛的Token 成本控制。多模态图片处理采用"双分辨率策略",API 传输侧仅使用经过 Canvas 压缩的 JPEG (q0.7, 1280px),确保响应速度与成本的平衡。

4. 执行与连接 (Action & Connectors):突破孤岛的执行力

  • 全渠道消息适配:我们将通讯工具抽象为Channels适配层。无论是微信桥接(wechat.rs)还是未来的主流平台接入,在 Bot 底层都通过统一的消息轮询与分发机制进行全量管理。
  • 执行平面 (Execution Plane):整合了完整的MCP 协议(Model Context Protocol)以及基于 enigo 的系统级操作能力。通过视觉自动化(Vision Automation)进行 OCR 识别与坐标映射,让 AI 真正能够控制桌面应用,而不只是停留在对话框里"纸上谈兵"。

四. 这个系列会写什么

我没打算写什么完美的 PR 稿,这里只有我的研发手记。

接下来的文章里,我会把 EchoMindBot 的构建全过程拎出来:从为什么要选 Rust,到怎么处理 AI 的长效记忆,再到怎么设计跨平台的自动化执行。

如果你也反感现在的浮躁气氛,想正经聊聊技术实现,欢迎跟我一起看这个 Bot 是怎么从一个文件夹变成一个超级助手的。


下一篇预告:Build 01 / 架构推演:为什么我们在 2026 年依然选择 Tauri + Rust?我会直接对着项目目录,聊聊我是怎么压榨这台 Bot 的性能表现的。

欢迎大家留言,私信可以加作者的研发技术讨论群~~~

相关推荐
甲维斯6 分钟前
用AI还原《坦克大战》并3D化升级!
前端·人工智能·游戏开发
IT_陈寒1 小时前
SpringBoot自动配置坑了我一晚上,原来问题出在这
前端·人工智能·后端
吴佳浩2 小时前
Hermes Agent 连环 400 真凶找到了:一个 call_id 让人炸毛
人工智能·llm·agent
程序员cxuan3 小时前
幽默,一个 Github 名字叫“马尾辫”,但是他给你省了 80% 的 token
人工智能·后端·程序员
宋哥转AI3 小时前
Agent记忆模块系列:03存储与检索链路实测验证
人工智能·agent
老金带你玩AI3 小时前
老金开源GoalPro,别让AI把目标越写越烂
人工智能
Bigfish_coding3 小时前
前端转agent-【python】-08 用 LangGraph 把 Agent 做成状态机:像写 Vue 3 状态管理一样编排 AI 流程
人工智能
刺猬的温驯4 小时前
语音克隆模型的难点之一:音素对齐及交叉注意力早期失效问题 (兼论旋转位置编码)——F5-TTS、SupertonicTTS、VoxFlash-TTS 对比
人工智能·语音合成·tts
道友可好5 小时前
AI 是最好的混乱放大器:代码熵管理实战
前端·人工智能·后端
不加辣椒6 小时前
第7章 边界与约束技术:确保输出的准确性与安全性
人工智能