从提示词工程到驾驭工程:AI协作的三代进化
一、开场
想象一下:两年前,你还在跟朋友炫耀"我发现了一个神奇的prompt,用这句话AI就会变聪明!";一年前,你开始研究怎么把自己的资料喂给AI,让它更懂你;而到了2026年,那些最懂AI的人,聊的都是"驾驭工程"(Harness Engineering)。
这个变化不是突然发生的。从Prompt Engineering到Context Engineering再到Harness Engineering,这不是谁替代了谁,而是一层一层的升维------就像人类从学会用火,到发明炉子控制火,再到用蒸汽机把火变成动力。

今天这篇文章,我想跟你聊聊这三代技术到底是什么,以及在2026年的今天,我们普通人到底该怎么跟AI协作。
二、三代技术详解
2.1 第一代:提示词工程(Prompt Engineering)
什么是提示词工程?
有个比喻说得好:"提示词是AI的'说明书',提示词工程就是写这本说明书的艺术。"
简单说,提示词工程就是研究怎么跟AI说话,才能让它给出你想要的答案。这不是随便写写就行,这里面结合了语言学、认知科学,甚至一点心理学。
为什么会出现?
还记得2022年底ChatGPT刚出来的时候吗?大家都疯了。有人发现,只要加上一句"Let's think step by step"(让我们一步步来想),AI的智商好像突然就提高了;还有人发现,给AI几个例子,它就能学会做复杂的任务。
2023年简直是提示词工程的黄金年:GPT-4发布了,思维链(Chain-of-Thought)提示火了,甚至"提示词工程师"都成了热门职业。大家突然意识到:原来同一个AI,你问法不一样,结果能差这么多!
你肯定用过这些技巧:
- 直接问:"帮我写个邮件"------这叫零样本学习
- 给几个例子:"比如A情况这么写,B情况那么写,现在帮我写C"------这叫少样本学习
- 让它一步步想:"先分析问题,再给出方案,最后总结"------这叫思维链推理
这个阶段大家都在怎么玩?
提示词工程的进化路线其实很有意思:
- 最开始大家只会直接提问(Zero-Shot)
- 然后发现给几个例子效果更好(Few-Shot)
- 接着学会让AI一步步思考(Chain-of-Thought)
- 后来甚至让AI探索多条思路(Tree-of-Thoughts)
- 再后来,工具出现了------自动帮你优化提示词(APE、OPRO)
- 到最后,有人把提示词工程做成了编程框架(DSPy)
2.2 第二代:上下文工程(Context Engineering)
什么是上下文工程?
2025年6月发生了一件有意思的事:Shopify的CEO Tobi Lütke发了条推特说:"我真的很喜欢'context engineering'这个词,胜过'prompt engineering'。"一周后,Andrej Karpathy(前特斯拉AI负责人)也发推说:"+1"。
什么意思呢?Karpathy解释说:"大家总觉得prompt就是给LLM的那几句简短任务描述。但在每一个工业级的LLM应用里,context engineering其实是填充上下文窗口的精妙艺术与科学。"
简单说:提示词工程问的是"我怎么措辞这个问题?";而上下文工程问的是"模型必须知道什么才能给出好答案?"
为什么突然从"怎么问"变成了"喂什么"?
因为大家发现,光靠一两句话的prompt不够了。你想让AI帮你做复杂的事,得把背景信息都给它:
- 之前的对话历史(但不是逐字记录,而是总结后的要点)
- 你希望它扮演的角色(比如"你是一个资深产品经理")
- 相关的参考资料(通过RAG检索出来的)
- 它调用工具返回的结果
到了2025年,大家都在说"这是AI agents之年"。但决定agent成败的最关键因素是什么?不是选哪个模型,而是你给它的"上下文质量"。
这个阶段的高手都在怎么做?
你看Cursor这个编辑器为什么这么火?Karpathy总结了它成功的四个层次:
- 做好context engineering(把你的代码库上下文喂给AI)
- 编排多个LLM调用(不是一次对话搞定,而是后台串成复杂的流程)
- 提供应用特定的GUI(让你能方便地在循环中干预)
- 提供"自主滑块"(让你选择让AI自主到什么程度)
2.3 第三代:驾驭工程(Harness Engineering)
什么是驾驭工程?
先记住这个公式:Agent = Model + Harness

什么意思?LangChain的博客说得很直白:"如果你不是模型,你就是harness。"Harness就是除了模型本身之外的每一段代码、每一个配置、每一条执行逻辑。
Martin Fowler(就是那个写《重构》的大牛)给了个更务实的定义:"Harness engineering把人类工程师的重点,从写代码,转移到设计环境、明确意图、提供结构化反馈。"
Harness这个词,英文原意是"马具"------缰绳、马鞍、笼头那一套东西。一匹千里马,你不给它套上马具,它只会四处乱跑。大语言模型就是这匹千里马。
为什么现在大家都在聊这个?
OpenAI在2026年2月11日发了篇官方博客,讲了一个疯狂的实验:三个工程师,五个月时间,用Codex从零构建了一个内部产品,大概写了100万行代码。重点是:人类没有手写一行代码。

那这三个人在干嘛?他们在做Harness Engineering:
- 设计架构边界(告诉AI哪部分是哪部分)
- 制定依赖规则(告诉AI什么能用什么不能用)
- 写自动化测试(让AI知道自己写得对不对)
- 配置lint规则(给AI定好代码规范)
- 搭建CI/CD流水线(让AI能自动交付)
- 设计反馈循环机制(让AI能从错误中学习)
"我们团队一直在做一个实验:用0行手写代码,构建和交付一个软件产品的内部测试版。"
数据不会骗人:
LangChain做了个实验,模型固定用gpt-5.2-codex,只改harness,结果编码agent在Terminal Bench 2.0测试上的分数从52.8%提升到66.5%------足足提高了13.7分!排名从Top 30直接升到Top 5。
"我们的编码agent从Top 30升到Top 5。我们只改了harness。"
还有更狠的:"模型是商品。Harness是护城河。"
为什么这么说?Manus这家公司,六个月内重写了五次harness。模型没变,架构变了五次,每次重写都提高了可靠性和任务完成率。LangChain更夸张,一年内四次重构Deep Research------不是因为模型进步了,而是因为他们发现了更好的方式来结构工作流、管理上下文、协调子任务。
你从Hugging Face下载不到好的harness。你必须自己构建、测试、失败、学习、重建。这才是护城河。
这个阶段的高手都在怎么"驾驭"AI?
Martin Fowler的框架很清晰:Guides和Sensors

-
Guides(前馈控制):在AI行动前就引导它
- 比如写个AGENTS.md文件,告诉AI"你是谁、你要做什么、你要遵守什么规则"
- 比如写架构文档,告诉AI系统怎么设计
- 比如定好编码约定,让AI按你的风格来
-
Sensors(反馈控制):在AI行动后观察它,帮它自我纠正
- 比如写自动化测试,AI写完代码跑一遍测试就知道对不对
- 比如配置lint规则,AI写得不符合规范立刻提示
- 比如让另一个AI来检查第一个AI的工作
Anthropic的玩法更激进:三个agent互相配合
- Planner(规划者):先想清楚要做什么
- Generator(生成者):真的去写代码
- Evaluator(评估者):直接跟页面交互,打分,挑毛病
评估者的反馈又流回生成者,一次又一次迭代,每次生成跑5到15次。
李宏毅教授的比喻最形象:三根缰绳

- 第一根缰绳:控制"认知框架":给AI读CLAUDE.md、AGENTS.md这些文件------模型每次开始工作前,都会先"复习"这些规则
- 第二根缰绳:控制"能力边界":像权限系统一样,不把所有权限都给AI,只开放它需要的那部分
- 第三根缰绳:控制"行为流程":用Ralph Loop这种反馈循环模式------不让AI一次性盲猜最终答案,而是每次产出一个版本,外部评估给反馈,再基于反馈修正,迭代逼近
还有个更通俗的游戏玩家类比:
- Prompt Engineering时代:你对工人说"这里用胡桃木饰面,接缝处做45度斜拼"------每一块板材、每一颗钉子都得你亲自指挥,工人只会等你一句句指令
- Context Engineering时代:你准备好全套施工图纸、水电管线图、建材清单,定义了房子的骨架和功能
- Harness Engineering时代:你制定用地性质、容积率、绿化率等规则,城市就在这套框架下自主生长演变
单位越聪明、越自主,你越得靠一整套系统去约束它们的行为。
三、普通人与AI协作的四大问题
聊完了这三代技术,你可能会问:那我呢?我不是OpenAI的工程师,也不是LangChain的研究员,我就是个想用好AI的普通人。我该怎么办?
3.1 方法论:我当下应该如何与AI协作?
记住这点:三个时代的Engineering,从来都不是什么替代关系,而是一层一层升维、随着时代前进的嵌套关系。
什么意思?Harness Engineer需要懂Context Engineering,因为给AI提供正确的上下文信息本身就是Harness的一部分。Context Engineer也需要懂Prompt Engineering,因为最终跟AI沟通的单元还是一条条的Prompt。
每一层都没有过时,只是被更大的框架包裹住了。
所以,不要把之前学的都扔了,而是在此基础上升级你的思维:
- 先把提示词写好(这是基础)
- 再学会怎么给AI喂好上下文(这是进阶)
- 最后,开始思考怎么设计一套"系统"让AI帮你干活(这是前沿)
3.2 训练方法/核心竞争力:我要学习什么技能适应AI?
答案很明确:你要成为一个Harness Engineer。
别被这个词吓住了,不是要你去写复杂的代码,而是要你学会这几件事:
- 怎么给AI写"说明书"(比如AGENTS.md这种文件,告诉AI它是谁、要做什么、遵守什么规则)
- 怎么设计"检查机制"(比如自动化测试、核对清单,让AI知道自己做得对不对)
- 怎么给AI划边界(什么能做、什么不能做、做到什么程度)
- 怎么让AI迭代改进(一次做不好,给反馈,让它再来一次)
记住这个惊人的发现:"Agent = Model + Harness。几十亿参数的小模型,加上好的马具,能打败一个万亿级的大模型裸奔。Harness的价值,可能比模型大小更重要。"
未来比的不是谁的模型大,而是谁的马具好。
3.3 工具论:我要学习什么工具提升效率?
推荐几个你可以马上用起来的工具:
- Cursor这种AI编程助手(它已经帮你做好了很多context engineering)
- Claude Code(你可以去试试,这是第一个真的能像个agent一样帮你干活的东西)
- 自动化测试工具(不管你做什么,能自动检查对错的工具都是好Sensors)
- 一些简单的流程工具(让AI按你的流程一步一步来)
但比工具更重要的是,你要有能力给这些工具"定规矩"------也就是写Guides和设计Sensors。
3.4 心态论:我要保持什么心态应对AI发展?
保持这三个心态,你就不会焦虑:
- 升维而非替代:新的技术不是来替代旧的,而是嵌套在旧的之上。你之前学的提示词技巧依然有用,现在只是多了一个更大的框架。
- 设计而非执行:你的价值正在从"亲手把事情做完",转向"设计一个让AI高效把事情做完的环境"。别什么都自己干,想想怎么让AI帮你干。
- 长期主义:从火到炉子到蒸汽机,人类花了几千年;从Prompt到Context到Harness,AI只花了三年------这个变化很快,但也没必要慌,适应这个节奏就好。
四、结语
这场变革的核心驱动力是什么?答案很简单:效率与规模化。

想想看:
- 最开始,你要手写每一行代码
- 后来,你用提示词让AI帮你写代码
- 现在,你设计一套Harness,让AI自主构建整个系统
我们正在把越来越多的工作交给AI,同时把自己的精力聚焦在更有价值的事情上:设计环境、制定规则、创建反馈循环。
"构建软件仍然需要纪律,但纪律更多地体现在脚手架中,而不是代码中。"
这就是Harness Engineering的时代。你准备好了吗?