AI Agent 的操作系统：Harness Engineering 深度拆解

系列导读：这是一个 8 篇的 CSDN 重量档连载，总量约 56000 字，围绕 "Harness Engineering" 这个 2025-2026 年 AI 工程圈正在形成的新范式，展开方法论梳理 + 一手项目实证。

所有实例都来自我真实运行了 6 个月的两个项目：OpenClaw（AI native 工作流引擎）和 DocCenter（本地 HTML 文档中心）。每篇都附完整可运行的代码片段。

为什么要写这个系列

过去两年我踩过的坑几乎都可以归结为一句话：以为自己买了个模型，其实需要的是一整套操作系统。

错觉	真相
"模型强到一定程度就够了"	模型只是 CPU，还需要内存、磁盘、中断、进程调度
"Prompt 写好就行"	Prompt 只是系统调用，上面还有用户态、内核态
"上下文越长越好"	上下文不是内存是注意力预算
"Agent = LLM + 工具"	Agent = Model × Harness，缺一个都跑不起来

Harness Engineering 正在变成这套"操作系统"的统称。它解决的不是单点 Trick，而是整套工程框架：如何让非确定性模型在确定性系统里可靠跑起来。

全系列地图

#	标题	核心概念	我的实例	字数
01	Agent = Model + Harness：为什么你的 Demo 活不过一周	Harness 定义与三阶段演进	CodeBuddy 装完就丢到 Skill 体系的进化	~6000
02	确定性外壳 × 非确定性内核：我凌晨 3 点补的那道护栏	状态机 + 概率模型的混合架构	git push 红线 / Skill 校验 / 禁令清单	~7000
03	Checkpoint 不是为了续跑，是为了让大脑 fsync	Checkpoint 与幂等性	daily-dream 完整源码 + MEMORY.md 精炼	~8000
04	Task Loop：为什么我把心跳拆成三层	Task Loop 五大机制	哨兵/学习/做梦三层心跳架构	~8000
05	上下文不是内存，是注意力预算	Context Engineering 四大模式	CLAUDE.md 自动注入 + Token 统计	~7000
06	独立 Evaluator：为什么模型不能自己给自己打分	三 Agent 架构 + 自评泡泡	classroom-article-writer-v2 自检机制	~6500
07	五大反模式：我踩过的坑和爬出来的路	反模式与陷阱	MckEngine Inches / Playwright / AI Slop 五大事故	~7500
08	Big Model vs Big Harness：我赌 Harness 不会消失	路线之争与未来演化	Claude Design / Hermes / OpenClaw 三家对比	~6000

读者画像与阅读建议

你适合读这个系列吗？

✅ 你适合：

做过 Agent Demo 但上线后天天救火
对 Prompt Engineering 已经吃透，想看下一层
读过 Anthropic Constitutional AI / OpenAI Cookbook，但觉得还缺一层结构
正在自研 Agent 产品，苦于没有可复用的工程脚手架

❌ 你不适合：

只想抄 Prompt 模板快速出活
把 LLM 当黑盒调用，不想碰工程侧
纯研究背景，不关心生产环境稳定性

阅读路径推荐

只有 1 小时：读 01 + 08，掌握框架 + 未来判断
有半天：读 01 + 03 + 04 + 07，这是硬货四件套
能读一周：按顺序通读，并 fork 每篇配套代码跑一遍
工程团队培训：以 01 开场，03/04 深讲，06 做设计复盘教材

我的承诺

不讲你可以 Google 到的话 ：Harness 原文已经够好，我只讲 "原文之外 + 我踩过的坑"
所有代码真实可跑：不是伪代码，不是示意，是我本机跑了 6 个月的生产脚本
所有观点可被反驳：每篇末尾我自己攻击自己 3 条，欢迎读者继续攻击