我不是狐狸,我是那Harness Engineering

Harness Engineering 介绍

Harness Engineering 是 2025-2026 年兴起的 AI 工程新范式。其核心在于为 AI Agent 构建约束(Constraints)反馈(Feedback)控制系统(Control Systems) ,旨在让 AI 在人类设定的边界内可靠、高效地工作。

核心理念:从"编写代码"转向"设计让 Agent 可靠运行的环境"。


1. 定义与起源

Harness Engineering(马具/驾驭工程)由 HashiCorp 联合创始人 Mitchell Hashimoto 在 2026 年初提出。它标志着软件工程核心竞争力的重大转移:超越了早期的提示词工程 (Prompt Engineering) 和上下文工程 (Context Engineering)。

"Harness" 的精准隐喻: 驾驭不等同于控制。真正的驾驭工程师不会尝试"硬编码" AI 的每一步行为,而是建立一套框架、约束和引导机制,让 AI 在其中自由发挥能力,同时保持可预测性和可靠性。

!IMPORTANT\] Mitchell Hashimoto 的核心观点:"每当你发现 Agent 犯了一个错误,就花时间设计一个解决方案,使 Agent 永远不再犯同样的错误。"


2. 演进逻辑:从 Prompt 到 Harness

随着 AI 处理任务复杂度的增加,工程重点经历了三个阶段的演进:

阶段 核心关注点 隐喻 解决的问题
Prompt Engineering (2023) 说什么 指令 如何通过提示词让 AI 交付单次结果。
Context Engineering (2025) 知道什么 信息 如何通过 RAG 和动态上下文构建让 AI 获得所需信息。
Harness Engineering (2026) 在什么环境做事 环境/闭环 如何构建约束、反馈与控制系统,让 Agent Reliable 执行任务。

3. Harness Engineering 的三大支柱

根据业界共识(如 Thoughtworks 专家 Birgitta Böckeler 的总结),Harness 由以下三个核心维度构成:

维度一:上下文工程 (Context 2.0)

不再只是简单地填充窗口,而是确保 Agent 在正确的时机获得正确粒度的信息

  • 渐进式披露 (Progressive Disclosure) :将隐性知识转化为结构化信息。通过层级目录(如 docs/ARCHITECTURE.md)按需引导,而非盲目堆砌。
  • 运行时数据接入:提供日志、指标和环境映射,允许 Agent 使用 LogQL/PromQL 等工具进行动态查询。
  • 直接感知环境:通过 CDP 等协议让 Agent 操作浏览器,实现原生的 Bug 重现或 UI 验证。

维度二:架构约束 (Architectural Constraints)

将"代码品味"(命名、依赖原则、边界等)编码为可强制执行的规则,实现"只在边界内行事"。

  • AI 友好型 Linter:传统的错误消息是给人看的,Harness 时代的 Linter 消息直接包含修复建议,便于 Agent 实现自主闭环。
  • 双轨审计机制:引入专门的"审计 Agent"对主开发 Agent 的代码提交进行实时审查和拦截。

维度三:熵管理与反馈回路 (Entropy Management)

防止系统随时间推移而腐化,保障长期的可维护性。

  • 反熵 Agent (Anti-Entropy) :定期扫描代码库,自动清理过时文档、漂移模式和无效依赖。
  • 实时演进:通过持续的监控与自动化验证修复系统缺陷,驱动 Agent 持续进化。

4. 核心实践:OpenAI 的 Codex 极端实验

OpenAI 曾记录过一个极具代表性的实践案例:5 名工程师在 5 个月内交付了 100 万行代码,且其中包含 0 行人类手写代码。

关键成功因素:

  1. 倒逼机制 (Forcing Function) :全团队禁止直接编写代码,迫使所有人集中精力构建 Harness(基础设施)。
  2. 角色彻底转型 :工程师从 Code Writer 进化为 Environment Designer 。其日常工作由写逻辑转变为维护 AGENTS.md、编写自定义 Linter 以及建立可观测性栈。
  3. 极高吞吐量:平均每人每日交付 3.5 个 PR,且大部分 Code Review 是由 Agent 对 Agent 完成的。

5. 开发者如何构建自己的 Harness?

  1. 精炼 AGENTS.md 索引
    • 目录化:根目录文件应少于 100 行,仅作为导航。
    • 模块化:将架构、设计和安全约束拆分到 docs/*.md
    • 层级化:支持子目录级的覆盖规则(如 AGENTS.override.md)。
  2. 闭环反馈回路
    • 接入自动触发的测试、Lint 和验证工具。
    • 优化反馈信息的格式,使其更易被 AI 解析和执行。
  3. 优化工作流习惯
    • 热启动:下班前启动 Agent 进行深度调研或并行探索。
    • 职能分离:将模糊需求明确拆分为"规划 (Planning)"和"执行 (Execution)"两个阶段。
  4. 建立评估体系 (Evals)
    • 超越简单的 CI,建立一套针对 Agent 意向和产出质量的系统化评估工具。

总结

Harness Engineering = 用工程手段"驯服"大模型,将 AI 转化为可靠的产品。

软件工程团队的核心竞争力,正在从"谁的代码写得好"转向"谁能设计出更好的 Agent 运行环境"。

相关链接

相关推荐
俞凡2 小时前
CLAUDE.md 完全指南
人工智能
码路高手2 小时前
Trae-Agent中的设计模式应用
人工智能·架构
百慕大三角2 小时前
pi-mono sdk中文文档
人工智能·ai编程
码路高手2 小时前
Trae-Agent中的Evaluation架构分析
人工智能·架构
lifallen2 小时前
从零推导 Plan-Execute (计划-执行) Agent
人工智能·语言模型
开开心心就好2 小时前
免费自媒体多功能工具箱,图片音视频处理
人工智能·pdf·ocr·excel·音视频·语音识别·媒体
昨夜见军贴06162 小时前
AI审核守护透析安全:IACheck助力透析微生物检测报告精准合规
大数据·人工智能·安全
东方不败之鸭梨的测试笔记2 小时前
如何对AI测试用例生成方案进行评估?
人工智能·测试用例
新新学长搞科研2 小时前
【高届数会议征稿】第十二届传感云和边缘计算系统国际会议(SCECS 2026)
大数据·人工智能·生成对抗网络·边缘计算·传感器·学术会议