大家好,我是拭心。
最近 Harness Engineering 很火,国内外都在谈论它,我们也来简单聊聊。
起因是 OpenAI 的这篇 《Harness engineering: leveraging Codex in an agent-first world》(openai.com/zh-Hans-CN/... Harness Engineering 的概念。
简单来说,OpenAI 花了五个月做了一件事:完全靠 AI 实现了一个大规模(100万行)、可以使用的产品,人类没有编写一行代码。
最终 AI 可以自动开发这些工作:
- 产品代码与测试
- CI 配置和发布工具
- 内部开发者工具
- 文档和设计历史
- 评估框架
- review 评论和回复
- 管理代码仓库本身的脚本
可以看到,基本上做到了能自动完成整个研发流程。
这在之前是无法想象的,通过提示词和上下文优化,我们可以让 AI 多做一些事情,但总是需要人类去 review、测试、指出问题。每次开发需求都是输入提示词开始,人工测试修复结束。
OpenAI 这次的实验,就是秉持着「review 流程,而不是 review 代码」的态度。
遇到问题,不是人为去解决,而是思考「智能体还需要什么样的能力」,比如 AI 无法感知到运行问题,就让应用程序的 UI、日志和应用指标等内容对 Codex 直接可读,从而让智能体可以自测、收集运行情况。
最后,他们把这种 完全靠 AI 完成复杂系统,人类不写一行代码,定义为 Harness Engineering。
Harness 是马具的意思,表达像控制马一样管理大模型。
从目的上来讲,Harness Engineering(Harness 工程) 比提示词工程、上下文工程要宏大。
- 提示词工程的核心是优化问题,让 AI 理解问题细节;
- 上下文工程的核心是优化模型的输入信息,让 AI 有更多决策信息;
- 而 Harness Engineering 的核心,则是完全让 AI 自动实现整个流程。
别的不说,光是这个概念,就让工程师、企业老板有了无限的遐想:如果这个系统真的实现了,那真的吃着火锅唱着歌,就把事干了、钱赚了。
听着很厉害,这要怎么做到呢?我们下篇聊。
更多精彩教程,尽在我的转型 AI 应用开发专栏:《转型 AI 工程师|提升竞争力》