序章:为什么企业级应用需要 Harness Engineering

序章:为什么企业级应用需要 Harness Engineering

本文是「企业级应用中 Harness Engineering 的实践与思考」系列的开篇。

什么是 Harness

在讨论 AI Agent 时,注意力很容易被放在大模型本身:模型是否足够聪明,代码能力是否足够强,上下文窗口是否足够大,推理能力是否足够稳定。

但在真实软件工程中,Agent 的能力并不只来自模型。模型之外,还有一整套东西在决定它能看到什么、能做什么、应该怎么做、做到什么程度,以及失败之后如何恢复。

这部分可以被称为 Harness。

Harness = Agent - Model

也就是说,一个 Agent 中除大模型以外的所有工程化部分,都是 Harness 的一部分。

例如:AGENTS.md、rules、skills、MCP、工具权限、脚本、工作流文档、任务状态、审查机制、上下文注入方式、命令执行环境、测试与验证流程。这些东西本质上都在做同一件事:控制、约束、引导和扩展大模型,使它能够在真实工程环境中完成可持续、可验证的工作。

所以 Harness 不是某一个单独的工具,也不是某一段提示词。它是围绕大模型建立起来的执行环境和治理系统。

企业级应用为什么不一样

随着大模型能力越来越强,网上常常能看到这样的文章:不会写代码的人,用一个下午 vibe coding 出了一个网站、一个小游戏,或者一个看起来已经可以使用的产品原型。它们给人的感觉是,一个大模型可以解决一切软件问题的时代似乎已经到来。

不可否认,今天的大模型已经足够强。很多时候,只要给出一个模糊的需求,它就能生成一个看起来还不错的 demo:页面能打开,按钮能点击,流程大致能跑通,甚至视觉效果也不差。

但 demo 和企业级应用是两件完全不同的事情。

企业级应用不是一次性的展示结果,而是一个需要长期演进的工程系统。它通常有复杂的业务规则、历史遗留代码、权限与数据边界、多人协作流程、测试和发布要求、线上稳定性压力,以及大量没有写在需求文档里的组织知识。更重要的是,它的需求往往不是一句自然语言描述就能完整表达的,而是伴随着明确的业务规则、交互边界、数据约束、权限控制、异常处理和验收标准。它不仅要"看起来能用",还要在真实用户、真实数据、真实异常和真实变更中持续工作,并且能够被测试、审查和追溯。

这也是为什么,单纯依赖大模型本身的能力,很难做好企业级应用。模型可以生成代码,也可以解释代码,但企业级应用需要的不只是生成能力,而是围绕生成能力建立起来的上下文、约束、验证、协作和治理。

从 Prompt Engineering 到 Harness Engineering

短短几年里,AI 参与软件开发的方式已经发生了好几次变化。

最早的时候,人们更多是在和 ChatGPT 这样的对话式 AI 聊问题:把需求、报错、代码片段复制进去,再把 AI 生成的解释或代码复制回代码库。那个阶段的核心问题是:如何把问题说清楚,如何让 AI 更好地理解人的意图。于是 Prompt Engineering 成为一个重要话题。

随后,AI 开始更直接地进入开发现场。它不再只是一个聊天窗口里的回答者,而是逐渐成为一个可以和人协作开发代码的 Agent。AI 开始拥有"眼睛"和"手":它可以直接阅读代码库,而不是只依赖人类在 prompt 里转述上下文;它也可以直接修改文件、运行命令,而不是让人把答案复制回项目。

这带来了新的问题。一次 session 里的 AI 也许可以理解当前任务,但真实项目不会只存在于一次对话中。项目有长期目标、历史决策、当前进度、团队约定、技术边界和未完成的工作。于是 Context Engineering 开始变得重要:跨 session 的记忆需要被管理,项目知识需要被组织,必要上下文需要被注入,工具和环境也需要以更稳定的方式交给 AI。

但对于企业级应用来说,只有 prompt 和 context 仍然不够。

当 AI 不只是回答问题,不只是读取上下文,而是开始参与真实项目的持续开发时,更完整的工程系统就变得必要。任务如何拆解,状态如何流转,什么时候必须停下来等待人确认,哪些命令可以执行,哪些文件可以修改,结果如何验证,失败如何回收,多 Agent 如何协作,这些都不是模型本身能单独解决的问题。

这就是 Harness Engineering 出现的地方。

Prompt Engineering 解决的是"如何把问题告诉 AI";Context Engineering 解决的是"如何让 AI 获得和保持上下文";Harness Engineering 解决的是"如何让 AI 在真实工程系统中持续、可控、可验证地工作"。

所以 Harness Engineering 不是对过去方法的颠覆,也不是一个凭空出现的新概念。它是当 AI 从对话对象变成工程参与者之后,软件工程自然长出的下一层实践。它继承了 Prompt Engineering 和 Context Engineering 的经验,也继承了软件工程长期积累下来的协作机制、质量保障、权限边界、任务拆解和反馈流程,只是这些经验现在需要被重新应用到 AI Agent 这个新的执行体上。

为什么需要 Harness Engineers

Harness 这个词本身就很有意思。

一匹能力很强的马,可以跑得非常快。但如果没有马具,没有缰绳,没有方向控制,它的速度未必是助力,反而可能是一场灾难。方向错了,跑得越快,偏得越远;力量越大,失控时造成的破坏也越大。

但人类并不是通过否定马的力量来使用马。恰恰相反,人类通过 harness 把马的力量连接到明确的方向、边界和任务上。马没有取代人,但在被正确驾驭之后,它极大地扩展了人的行动能力。

AI 参与软件开发也是类似的关系。

Harness Engineering 的目标并不是制造一种可以完全取代人的 AI 开发系统。至少在当前实践中,它不是这样被设计的。真正的问题不是"如何让 AI 替代工程师",而是"如何让 AI 的能力被工程师稳定、可控、可验证地使用"。

大模型已经具备很强的生成、理解和推理能力。但在企业级应用开发中,如果没有合适的 harness,这种能力很容易变成另一种风险:它可能误解需求,遗漏上下文,越权修改文件,跳过验证流程,在错误方向上快速产出大量看起来合理的代码。

这时就需要 Harness Engineers。

Harness Engineer 要做的不是训练一个更聪明的模型,而是设计模型之外的工程系统:如何拆解任务,如何组织上下文,如何定义状态流转,如何设置人类确认点,如何限制工具权限,如何接入测试和审查,如何让 AI 在失败时能够停下来、回退或重新分析。

换句话说,Harness Engineer 负责设计 AI Agent 的工作环境。它让 AI 不只是"能做事",而是能在真实工程约束下做正确的事。

基于真实企业级应用开发实践的思考

这个系列的文章,正是基于真实企业级应用中落地 Harness Engineering 的实践过程。

它不是关于某个工具的介绍,而是一组围绕 AI 如何进入企业级应用开发现场的实践复盘。真正关注的,不只是 AI 如何生成代码,而是 AI 如何进入企业级应用的开发、迁移、协作、验证和交付流程。

因此,这个系列记录的不是理想化 demo 中推演出来的概念,而是真实落地过程中不断遇到的问题、取舍和思考:哪些上下文必须被保存,哪些流程必须被显式化,哪些动作必须设置人类确认点,哪些结果必须被测试和审查,以及 AI Agent 如何在工程约束中真正成为开发工作的助力。

相关推荐
zubylon3 小时前
前端 RAG:把文档检索接到聊天页
前端·人工智能·算法
iNeuOS工业互联网3 小时前
iNeuOS工业互联网操作系统集成大模型智库(iNeuOS_AiMind·心智灵慧)
大数据·人工智能·智能制造·视频·工业互联网·ineuos
人工智能AI技术3 小时前
终身学习基础:AI 持续进化不遗忘旧知识
人工智能
前端不太难3 小时前
给AI装上“安全缰绳”:OpenClaw与Co-Sight的信任协作
人工智能·安全·状态模式
甲维斯3 小时前
逆天好消息!所有Claude用户配额翻倍
人工智能
名不经传的养虾人3 小时前
从0到1:企业级AI项目迭代日记 Vol.18|功能被悄悄改没了,然后我们写了个看门狗
大数据·人工智能·ai编程·企业ai·多agent协作
Aray12343 小时前
CPU vs GPU vs TPU vs NPU vs LPU vs DPU:驱动现代 AI 的六大处理器解析
人工智能
动物园猫3 小时前
公共安全打架行为识别数据集分享(适用于YOLO系列深度学习检测任务)
人工智能·深度学习·yolo