花了 100+ 篇笔记,我整理出 了一套 AI Agent 工程完全指南

研究了半年 Agent,我终于搞懂了为什么大部分团队都在做无用功

我花了半年读了 Anthropic、OpenAI、LangChain 等团队的技术博客,做了 100 多篇笔记。整理完之后,我发现大部分人(包括半年前的我)对 Agent 的理解从根上就是错的。


先说结论:我把这半年的研究整理成了一套 7 个模块的免费教程,覆盖从范式转移到生产上线的完整路径,还做了一个贯穿全程的端到端案例。地址在文末。

但比起直接丢链接,我更想聊聊为什么要做这件事,以及在这个过程中我认知上最大的几次翻转。因为工具到处都是,但思维方式的转变才是真正值钱的东西。


一个让我清醒过来的场景

去年年底,我给一个内部项目搭了 Coding Agent。

跑 Demo 的时候特别惊艳------给一段需求描述,Agent 能自己读代码、写实现、跑测试、提 PR。整个过程行云流水。

上线两周后,Agent 开始犯蠢。

不是它变笨了。是它自己写出来的代码慢慢污染了自己的环境------它复制了一处不符合规范的实现,然后在后续任务里又复制了三处。架构漂移的速度比你修补的速度还快。我花了一整周手把手修 Bug,修完一个冒出两个。

那一刻我才明白:问题根本不在 Prompt 上。

你把 Prompt 写得再好,如果 Agent 的运行环境是一团乱麻,它照样犯蠢。就像你给一个实习生写了一百条规则,但把他扔进一个没有文档、没有规范、没有 CI 的项目里------规则再多也没用。

这就是我后来花半年时间系统研究 Agent 工程的原因。


半年研究,100 篇笔记,我看到了什么

我读了很多团队的工程复盘:OpenAI 的 Codex 团队、Anthropic 的多 Agent 研究系统、LangChain 的上下文工程系列、Menlo 的生产实践......

这些团队之间有一个惊人的共识:Agent 的瓶颈不在模型,在环境。

但"环境"这个词太抽象了。我花了很长时间才把它拆解成具体的问题:

第一层:Agent 看不见

OpenAI 的 Codex 团队发现,早期的 Coding Agent 写完代码就停了------它不会自己去验证。不是不想,是它看不见系统状态。没有接入浏览器,没有日志查询,没有监控。

他们后来做了什么?把 Chrome DevTools Protocol 接入 Agent 运行时。Agent 能自己打开应用、截图、看 DOM、查日志。做了这个改动之后,单次任务能自主工作超过 6 小时。

我读到这段的时候,突然理解了一件事:我们一直在调 Prompt,但真正的杠杆在 Prompt 之外。 Agent 需要的不是更聪明的指令,而是能感知环境的基础设施。

第二层:知识放错了地方

我试过把所有项目规则塞进一个超长的 agents.md------觉得这样 Agent 什么都该知道了。

结果完全反直觉:指令越多,Agent 表现越差。原因很简单------上下文是有限的。你塞了 5000 行规则进去,留给任务本身的思考空间就被挤掉了。而且所有东西都被标记为"重要",等于什么都不重要。

正确的做法是 "给 Agent 一张地图,而不是一本一千页的说明书" ------这是 OpenAI 的原话。一个小的 agents.md 当目录,详细知识拆到结构化的子目录里,Agent 按需读取。

更残酷的是:不在仓库里的东西,对 Agent 就不存在。 Slack 讨论、Google Docs、同事脑子里的经验------全都是黑洞。你必须把隐性知识显性化写到文件里,Agent 才能用。

第三层:拆分的幻觉

这部分是我踩过最深的坑。

我看过太多文章说"多 Agent 是趋势",于是我也搞了一套:一个 Agent 负责规划,一个负责写代码,一个负责测试,一个负责审查。看起来很专业。

结果 Anthropic 的工程博客直接把我打醒了:按人类组织结构拆分 Agent,是最低效的方式。 写测试的 Agent 不知道实现 Agent 为什么这么写,做审查的 Agent 不了解前面排除过什么方案。它们之间反复解释背景消耗的 Token,甚至超过了真正干活的 Token。

多 Agent 的正确拆分方式是以上下文为中心------只有当两个任务的上下文可以真正隔离时,拆分才有意义。否则你就是在造一个分布式单体。


我把这些整理成了一套完整的学习路径

消化完 100 多篇笔记之后,我做了一件看起来很蠢的事:把所有知识按照工程师搭建 Agent 系统时的真实认知顺序重新组织了一遍。

不是按论文结构,不是按技术栈分类,是按你实际干活时会遇到的问题来排的:

第一个模块回答"为什么"------为什么 Agent 时代需要新的工程范式。

中间的模块回答"怎么想"------上下文怎么管、架构怎么选、能力怎么封装。

最后两个模块回答"怎么干"------怎么评估质量、怎么上线运营。

还做了一个贯穿所有模块的端到端案例:自动化竞品分析 Agent 系统。从仓库怎么组织、上下文怎么管理、用哪种 Workflow 模式、到怎么评估报告质量、怎么灰度上线------每一步都给出了具体的工程决策。


写给那些还在犹豫的人

我知道很多人看到"Agent""上下文工程""多 Agent 架构"这些词就头大。觉得这是大厂高级工程师才玩的东西,跟自己没关系。

但你想想:三年前大家看到"Kubernetes""Service Mesh"也是这个反应。现在呢?不会 K8s 的后端工程师已经越来越难找工作了。

Agent 也是一样的趋势。只不过现在还处于早期红利期------大部分人还在用 ChatGPT 聊天,少数人已经开始搭系统了。等所有人都会用的时候,你的优势就没了。

学习这件事没有捷径,但有方向。我的建议:

  1. 先跑起来。 用 Cursor 或 Claude Code 做一个小项目,感受 Agent 怎么干活。别纠结理论,先动手。
  2. 踩坑就是学习。 Agent 会犯蠢,你会生气,然后你会想"它为什么会这样"------这个思考过程就是理解 Agent 的过程。
  3. 犯错成本极低。 Agent 时代最大的变化是:你让 Agent 改代码,它几秒钟就改好了。大胆试,快速迭代。不要怕搞坏什么。

学会用 Agent 的工程师不会被 Agent 取代。真正危险的是那些拒绝学习的人。


教程地址

🔗 hermes-engineering.dev

开源:GitHub

如果对你有帮助,Star ⭐ 一下就是最大的支持。也欢迎分享给身边在研究 Agent 的朋友。


写于 2026-03-23,整理自半年的研究笔记

相关推荐
软弹2 小时前
深入理解 React Ref 机制:useRef 与 forwardRef 的协作原理
前端·javascript·react.js
神奇小汤圆2 小时前
Java面试题及答案整理(2026年金三银四最新版,持续更新)
后端
YaHuiLiang2 小时前
Ai Coding浪潮下的前端:“AI在左,裁员在右”
前端
uzong2 小时前
“腾讯QClaw全面开放”,不花 Token 钱、真正体验一把小龙虾的快乐,最低成本全面了解龙虾
人工智能·后端
楼田莉子2 小时前
C++高并发内存池:内存池调优与测试
c++·后端·哈希算法·visual studio
短剑重铸之日2 小时前
《ShardingSphere解读》16 改写引擎:如何理解装饰器模式下的 SQL 改写实现机制?
java·数据库·后端·sql·shardingsphere·分库分表·装饰器模式
雪碧聊技术2 小时前
前端vue代码架子搭建
前端·javascript·vue.js·前端项目代码框架搭建
爱学习的程序媛2 小时前
【Web前端】前端用户体验优化全攻略
前端·ui·交互·web·ux·用户体验
q5431470872 小时前
VScode 开发 Springboot 程序
java·spring boot·后端