Harness Engineering学习

从Prompt到Harness

prompt Engineering -- 对指令的工程化

关键: 模型有没有听懂你在说些什么

瓶颈:不是说清楚就行,而是要真的知道

擅长: 澄清任务,约束输出,激发模型已有的能力

不擅长:凭空补齐缺失的知识,管理大量动态信息,处理长链路状态变化

总结: prompt解决的是表达的问题,而不是信息的问题

任务: 优化单次调用指令,精准表达意图

context Engineering -- 对输入环境的工程化

关键: 模型有没有拿到足够多正确的内容,模型未必知道,所以系统必须在调用时把正确的信息送进去

瓶颈: 就算信息给对了,模型也不一定能稳定的执行对

context:不只是几段背景资料,是所有影响模型当前决策的信息总和

任务:提供模型"当前时刻可见信息",包含历史对话,检索,工具,记忆

Harness Engineering -- 对整个运行系统的工程化

关键: 模型在真实的执行里有没有持续做对,重点是有没有一套持续观测,持续纠偏,最终验收的机制

任务: 系统性约束与治理,实现持续观测,纠偏,收敛

分层:

  • 上下文管理: Harness第一职责:让模型在边界内思考
    • 角色和目标定义(模型要知道自己是谁,任务是什么,成功标准是什么)
    • 信息的选择和裁剪(上下文不是越多越好,而是越相关越好)
    • 结构化组织(固定规则放在哪,当前任务放在哪,运行状态放在哪,外部证据放哪里,最好分层清楚)
  • 工具系统
    • 给它什么工具(工具太少,能力不够,工具太多,模型会乱用)
    • 什么时候该调用工具(不该查的时候别乱查,该查证的时候也别硬回答)
    • 结果怎么喂回模型 (搜索回来的结果,不是原封不动的塞回去,而是要提炼、筛选、保持和任务的相关性)
  • 执行编排:模型下一步该干什么
    • 理解目标
    • 判断信息(不够去补充)
    • 继续分析
    • 检查输出(不满足就去修正)
  • 状态与记忆(没有状态的Agent,每一轮都像是在失忆,刚做了什么?哪些问题没解决? 哪些结论已经确定?)
    • 当前任务的状态(哪些是完成的,哪些是正在进行的)
    • 会话的中间结果
    • 长期的记忆与偏好
      如果三者(任务状态、中间结果、长期记忆)混在一起,系统会越来越乱,分清楚之后,Agent才会越来越像一个稳定的协作者
  • 评估与观测(系统不仅要会做,还要知道自己做没做对)
    • 输出验收
    • 环境验证
    • 自动测试
    • 日志和指标
    • 错误归因
  • 约束、校验与失败恢复
    真实环境里,失败不是例外,而是常态,比如搜索不准,API超时,文档格式乱,工具权限不够,模型误解任务
    • 约束(哪些能做,哪些不能做)
    • 校验(输出前怎么检查)
    • 恢复(失败以后怎么重试,切路径,回滚到稳定状态)

Harness Engeering的典型问题与解决方案:

  1. 长程任务的深度洞察(Anthropic发现的第一个典型的问题):
    上下文焦虑,丢细节,丢重点,感觉装不下,着急收尾
    常规方案: context compaction 把历史上下文压缩下继续跑
    但是压缩只是变短了,不代表负担感消失了
    Anthropic的激进解法: Context Reset
    旧Agent(满载) 交接工作 给新的Agent(干净的上下文)类比工程中遇到内存泄漏,不是继续清缓存,而是直接重启进程
  2. 自评失真
    模型自己给自己打分,往往会偏乐观,尤其是设计、体验、产品完整度这种没有标准答案的问题,偏差更明显
    Anthropic解决方案:把干活的人和验收的人拆开
  • Planner:负责把模糊的需求扩成完整规格
  • Generator: 负责具体的代码实现
  • Evaluator:负责像QA一样去真实测试(不仅是看代码,而是会真实的去操作页面,看交互,检查结果,即不仅仅是抽象审查,而是带着具体环境的验证)

openai的工程哲学(重新定义了工程师在Agent时代的工作)

人类负责去设计工作,工程师的工作变成了三件事情:

  • 拆解任务(把产品目标拆解成Agent能理解的小任务)
  • 补充能力(Agent失败时,不是让它再努力一点,而是问环境里面缺了什么能力)
  • 建立反馈(建立反馈回路,让Agent真能看到自己工作的结果)

openai的进阶实践(让Agent看见整个应用)

代码产出速度一上来,瓶颈就不再是写,而是验

写代码(速度极快)验证代码(人类根本验证不过来)

接浏览器(能截图,点页面,模拟用户操作)

接日志指标(让它查日志,查监控)

隔离环境(每个任务独立跑,互不影响)

相关推荐
2zcode1 小时前
基于MATLAB与SVM实现河道水面漂浮物的自动检测与识别
人工智能·支持向量机·matlab
YangYang9YangYan1 小时前
2026财务分析师岗位学数据分析的价值分析
人工智能·数据挖掘·数据分析
糖炒栗子03261 小时前
最小二乘优化笔记:从损失函数、正则项到 BA / 图优化
人工智能·笔记·机器学习
weixin_446260851 小时前
基于本地模型的claude code文生图场景应用研究实践
人工智能
YJlio1 小时前
2023-09-25:ChatGPT 从纯文本走向多模态交互,看、听、说能力意味着什么?
人工智能·chatgpt·aigc·多模态·语音交互·ai工具·图像理解
小小测试开发1 小时前
LLM 文档处理安全指南:如何避免 AI 静默篡改你的重要数据
人工智能·安全
babe小鑫1 小时前
计算机专业学习数据分析的价值
学习·数据挖掘·数据分析
㳺三才人子1 小时前
初探 OpenCV 圖像處理
人工智能·python·opencv·计算机视觉
财经资讯数据_灵砚智能1 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月10日
人工智能·python·信息可视化·自然语言处理·ai编程