花了 100+ 篇笔记，我整理出了一套 AI Agent 工程完全指南

研究了半年 Agent，我终于搞懂了为什么大部分团队都在做无用功

我花了半年读了 Anthropic、OpenAI、LangChain 等团队的技术博客，做了 100 多篇笔记。整理完之后，我发现大部分人（包括半年前的我）对 Agent 的理解从根上就是错的。

先说结论：我把这半年的研究整理成了一套 7 个模块的免费教程，覆盖从范式转移到生产上线的完整路径，还做了一个贯穿全程的端到端案例。地址在文末。

但比起直接丢链接，我更想聊聊为什么要做这件事，以及在这个过程中我认知上最大的几次翻转。因为工具到处都是，但思维方式的转变才是真正值钱的东西。

一个让我清醒过来的场景

去年年底，我给一个内部项目搭了 Coding Agent。

跑 Demo 的时候特别惊艳------给一段需求描述，Agent 能自己读代码、写实现、跑测试、提 PR。整个过程行云流水。

上线两周后，Agent 开始犯蠢。

不是它变笨了。是它自己写出来的代码慢慢污染了自己的环境------它复制了一处不符合规范的实现，然后在后续任务里又复制了三处。架构漂移的速度比你修补的速度还快。我花了一整周手把手修 Bug，修完一个冒出两个。

那一刻我才明白：问题根本不在 Prompt 上。

你把 Prompt 写得再好，如果 Agent 的运行环境是一团乱麻，它照样犯蠢。就像你给一个实习生写了一百条规则，但把他扔进一个没有文档、没有规范、没有 CI 的项目里------规则再多也没用。

这就是我后来花半年时间系统研究 Agent 工程的原因。

半年研究，100 篇笔记，我看到了什么

我读了很多团队的工程复盘：OpenAI 的 Codex 团队、Anthropic 的多 Agent 研究系统、LangChain 的上下文工程系列、Menlo 的生产实践......

这些团队之间有一个惊人的共识：Agent 的瓶颈不在模型，在环境。

但"环境"这个词太抽象了。我花了很长时间才把它拆解成具体的问题：

第一层：Agent 看不见

OpenAI 的 Codex 团队发现，早期的 Coding Agent 写完代码就停了------它不会自己去验证。不是不想，是它看不见系统状态。没有接入浏览器，没有日志查询，没有监控。

他们后来做了什么？把 Chrome DevTools Protocol 接入 Agent 运行时。Agent 能自己打开应用、截图、看 DOM、查日志。做了这个改动之后，单次任务能自主工作超过 6 小时。

我读到这段的时候，突然理解了一件事：我们一直在调 Prompt，但真正的杠杆在 Prompt 之外。 Agent 需要的不是更聪明的指令，而是能感知环境的基础设施。

第二层：知识放错了地方

我试过把所有项目规则塞进一个超长的 agents.md------觉得这样 Agent 什么都该知道了。

结果完全反直觉：指令越多，Agent 表现越差。原因很简单------上下文是有限的。你塞了 5000 行规则进去，留给任务本身的思考空间就被挤掉了。而且所有东西都被标记为"重要"，等于什么都不重要。

正确的做法是 "给 Agent 一张地图，而不是一本一千页的说明书" ------这是 OpenAI 的原话。一个小的 agents.md 当目录，详细知识拆到结构化的子目录里，Agent 按需读取。

更残酷的是：不在仓库里的东西，对 Agent 就不存在。 Slack 讨论、Google Docs、同事脑子里的经验------全都是黑洞。你必须把隐性知识显性化写到文件里，Agent 才能用。

第三层：拆分的幻觉

这部分是我踩过最深的坑。

我看过太多文章说"多 Agent 是趋势"，于是我也搞了一套：一个 Agent 负责规划，一个负责写代码，一个负责测试，一个负责审查。看起来很专业。

结果 Anthropic 的工程博客直接把我打醒了：按人类组织结构拆分 Agent，是最低效的方式。 写测试的 Agent 不知道实现 Agent 为什么这么写，做审查的 Agent 不了解前面排除过什么方案。它们之间反复解释背景消耗的 Token，甚至超过了真正干活的 Token。

多 Agent 的正确拆分方式是以上下文为中心------只有当两个任务的上下文可以真正隔离时，拆分才有意义。否则你就是在造一个分布式单体。

我把这些整理成了一套完整的学习路径

消化完 100 多篇笔记之后，我做了一件看起来很蠢的事：把所有知识按照工程师搭建 Agent 系统时的真实认知顺序重新组织了一遍。

不是按论文结构，不是按技术栈分类，是按你实际干活时会遇到的问题来排的：

第一个模块回答"为什么"------为什么 Agent 时代需要新的工程范式。

中间的模块回答"怎么想"------上下文怎么管、架构怎么选、能力怎么封装。

最后两个模块回答"怎么干"------怎么评估质量、怎么上线运营。

还做了一个贯穿所有模块的端到端案例：自动化竞品分析 Agent 系统。从仓库怎么组织、上下文怎么管理、用哪种 Workflow 模式、到怎么评估报告质量、怎么灰度上线------每一步都给出了具体的工程决策。

写给那些还在犹豫的人

我知道很多人看到"Agent""上下文工程""多 Agent 架构"这些词就头大。觉得这是大厂高级工程师才玩的东西，跟自己没关系。

但你想想：三年前大家看到"Kubernetes""Service Mesh"也是这个反应。现在呢？不会 K8s 的后端工程师已经越来越难找工作了。

Agent 也是一样的趋势。只不过现在还处于早期红利期------大部分人还在用 ChatGPT 聊天，少数人已经开始搭系统了。等所有人都会用的时候，你的优势就没了。

学习这件事没有捷径，但有方向。我的建议：

先跑起来。 用 Cursor 或 Claude Code 做一个小项目，感受 Agent 怎么干活。别纠结理论，先动手。
踩坑就是学习。 Agent 会犯蠢，你会生气，然后你会想"它为什么会这样"------这个思考过程就是理解 Agent 的过程。
犯错成本极低。 Agent 时代最大的变化是：你让 Agent 改代码，它几秒钟就改好了。大胆试，快速迭代。不要怕搞坏什么。

学会用 Agent 的工程师不会被 Agent 取代。真正危险的是那些拒绝学习的人。

教程地址

🔗 hermes-engineering.dev

开源：GitHub

如果对你有帮助，Star ⭐ 一下就是最大的支持。也欢迎分享给身边在研究 Agent 的朋友。

写于 2026-03-23，整理自半年的研究笔记

花了 100+ 篇笔记，我整理出 了一套 AI Agent 工程完全指南