自然语言智能体控制框架，重塑AI Agent的协作与执行范式

在人工智能技术飞速发展的今天，AI智能体（Agent）已经从单一的文本生成，走向了多步骤推理、工具调用、跨任务协作的复杂阶段。不管是代码编写、桌面操作，还是复杂问题的分析解决，智能体的表现好坏，早已不只是底层大模型能力的比拼，而是围绕模型的整套控制逻辑，也就是控制框架（Harness）在起决定性作用。

过去，控制框架的设计大多隐藏在控制器代码、运行时约定和各类工具适配层中，难以迁移、难以对比，更无法作为科学研究对象被系统分析。而清华大学与哈尔滨工业大学（深圳）联合发表的最新研究，提出了自然语言智能体控制框架（NLAH） 与智能控制运行时（IHR），把原本藏在代码里的控制逻辑，变成了可编辑、可执行、可迁移的自然语言文本，为AI智能体的发展打开了全新的研究与工程方向。

一、智能体控制框架，被忽视的核心能力

想要理解这项研究的价值，首先要弄明白，到底什么是智能体的控制框架。简单来说，控制框架就是智能体的总调度中心，它负责统筹多步骤推理、工具使用、记忆管理、任务委派和终止条件，是串联起所有模型调用、外部交互的核心逻辑层。

现在的主流智能体系统，几乎都离不开控制框架的支撑。比如常见的思考-行动循环，让智能体先推理再行动；检索增强生成，帮智能体调取外部知识；自我反思机制，让智能体能修正错误。还有多智能体编排、长上下文管理、状态持久化等能力，本质上都是控制框架在发挥作用。

大量研究已经证实，外部化的控制模式，对智能体的最终表现起到决定性影响。即便是使用完全相同的基础大模型，只要控制框架不同，完成复杂任务的成功率可能天差地别。在长上下文、长周期任务中，状态管理、上下文筛选、上下文压缩等控制逻辑，甚至会成为性能瓶颈，直接决定智能体能不能完成任务。

可以说，当下的AI智能体研发，已经从简单的提示词工程，升级为更全面的上下文工程。开发者不再只关注单次调用的提示词怎么写，而是要思考，在长流程的每一步，该给模型提供哪些指令、证据、中间产物和状态信息。行业内的实践也表明，当任务跨越多个上下文窗口时，稳定的状态管理、有效的验证机制、清晰的职责划分，远比一次性的提示词优化更重要。

但就是这样关键的控制框架，在现有系统中却存在巨大缺陷。目前绝大多数智能体系统里，控制逻辑都是碎片化的，分散在控制器代码、框架默认配置、工具适配器、验证脚本和运行时假设中。这就导致了三个核心问题：

第一，难以跨运行时迁移 。一套控制逻辑绑定在特定框架或代码环境里，换到另一个系统就无法使用，复用成本极高。

第二，难以公平对比 。两个系统看似只相差一个设计点，实际却在提示词、工具中介、产物约定、验证逻辑、状态语义等多个方面同时不同，无法精准判断哪个设计更优。

第三，难以干净地模块消融。研究者想测试某个组件的作用，却因为逻辑耦合，无法单独剥离或替换，实验结果缺乏说服力。

这些问题，让控制框架工程一直停留在工程实践层面，没能成为系统化、可量化、可对比的科学研究对象。而自然语言智能体控制框架的提出，正是为了解决这些痛点，把控制框架从隐藏的代码胶水，变成独立、可执行、可研究的核心组件。

二、自然语言智能体控制框架，让控制逻辑看得见、用得好

研究团队提出的核心创新，是把智能体控制框架的高层控制逻辑，外部化为可移植的可执行自然语言产物，不再依赖特定代码实现。这一创新包含两个核心部分，自然语言智能体控制框架（NLAH）和智能控制运行时（IHR）。

（一）自然语言智能体控制框架（NLAH）：用文本写控制逻辑

NLAH是一种结构化的自然语言表示形式，专门用来描述控制框架的控制逻辑。它不替代底层的确定性代码，而是承载可编辑、可查看的编排逻辑，同时通过适配器和脚本，对接确定性的执行钩子，比如测试、验证、解析、检索等操作。

一个完整的NLAH，需要明确暴露以下核心组件，确保能被运行时正确执行：

契约（Contracts）

定义任务的输入输出要求、格式约束、验证门槛、权限边界、重试与停止规则。相当于给智能体的执行过程立下明确规则，什么算完成、什么情况要重试、什么条件必须终止。
角色（Roles）

划分求解器、验证器、研究员、编排器等不同角色，每个角色有独立的提示词和不重叠的职责，避免智能体在执行中出现职责混乱。
阶段结构（Stage structure）

明确任务的工作负载拓扑，比如规划→执行→验证→修复，让多步骤任务有清晰的执行流程。
适配器与脚本（Adapters and scripts）

提供确定性操作的命名钩子，对接测试、验证器、检索、解析等代码模块，实现自然语言逻辑与底层代码的衔接。
状态语义（State semantics）

定义跨步骤、跨分支、跨委派子智能体需要持久化的内容，比如产物、台账、子工作空间，以及如何通过路径、清单重新读取这些状态。
失败分类（Failure taxonomy）

定义缺失产物、路径错误、验证失败、工具错误、超时等命名失败模式，为故障恢复提供明确依据。

这种设计的核心优势，是把控制逻辑从代码中解放出来。开发者不用编写复杂的控制器代码，只要用清晰的自然语言，就能定义智能体的执行规则、流程和约束，非专业开发者也能快速上手修改和优化。

（二）智能控制运行时（IHR）：读懂自然语言控制逻辑

NLAH用自然语言编写，无法直接被机器执行，因此需要专门的运行时来解析，这就是智能控制运行时（IHR）。IHR的核心设计，是把大模型嵌入运行时循环，每一步都会读取控制框架、当前状态与环境、运行时规约，然后选择符合契约和资源预算的下一步操作。

IHR由三个核心组件构成：

循环内大模型（In-loop LLM）

负责直接解析自然语言编写的控制逻辑，理解任务流程、角色分工和执行规则。
后端（Backend）

提供终端工具和一流的多智能体接口，支持创建、监督子智能体，接收子智能体返回的产物，实现多智能体协作。
运行时规约（Runtime charter）

定义契约、状态、编排、子智能体生命周期的语义，作为所有NLAH执行的通用标准，确保不同控制框架能在同一环境下公平运行、对比。

简单来说，IHR就像一个通用翻译官和调度员，把自然语言写的控制规则，翻译成智能体能执行的操作，同时统一管理所有智能体的运行环境，让控制逻辑和运行时环境彻底解耦。

（三）文件化状态模块：让长周期任务更稳定

在长周期自主任务中，状态隐式或临时存储，往往会导致任务失败。为此，研究团队还设计了可选的文件化状态模块，把持久化状态外部化为路径可寻址的产物，提升上下文截断和分支执行时的稳定性。

该模块强制满足三个特性：

外部化：状态写入产物文件，而不是只存储在临时上下文里；
路径可寻址：后续阶段能通过路径精准读取之前的状态文件；
压缩稳定：状态能在上下文截断、重启、委派后依然保留。

这种设计，让智能体的执行过程有迹可循，即便中途中断，也能快速恢复，大幅提升了长周期复杂任务的可靠性。

三、实验验证：自然语言控制框架的真实能力

为了验证NLAH和IHR的有效性，研究团队在代码生成、计算机操作两大经典场景展开实验，围绕三个核心研究问题，进行了严格的对照测试。

（一）研究问题1：控制逻辑真的能改变智能体行为吗？

实验首先验证，在固定资源预算下，共享运行时规约和特定任务的控制逻辑，是否能真正改变智能体的行为和任务结果。

研究团队在SWE-bench Verified代码修复基准测试中，设置了完整IHR、移除运行时技能、移除控制框架技能三组对照。结果显示，完整IHR虽然没有大幅提升任务解决率，但在令牌消耗、模型调用次数、运行时间等过程指标上，产生了显著变化。

具体来说，完整IHR会大幅增加工具调用、LLM调用和运行时间，且约90%的调用消耗都发生在委派的子智能体中，而不是父线程。这说明，运行时规约加控制逻辑，不是简单的提示词装饰，而是真正改变了智能体的执行流程，推动智能体走向多阶段探索、候选方案对比、产物交接和额外验证的复杂流程。

同时实验发现，控制逻辑的影响集中在少数敏感案例上，绝大多数任务在不同配置下结果一致。完整IHR更像是解决方案替换者，能解决一些简单配置无法完成的任务，但也可能丢失一些轻量配置能快速修复的案例。

（二）研究问题2：控制模块能自由组合和消融吗？

第二个研究问题，是验证当控制模式被明确后，能否以模块为单位自由组合、剥离。研究团队从基础配置出发，逐一添加文件化状态、证据驱动回答、验证器、自我进化、多候选搜索、动态编排六大模块。

结果显示，模块的效果集中在少数困难边界案例上，而非整体提升所有任务表现。不同模块呈现出明显的效果差异：

自我进化模块：是提升任务解决率最明显的模块，它不是无限制反思，而是通过严格的验收门槛重试循环，让搜索更聚焦，直到失败信号才开启新一轮尝试；
文件化状态、证据驱动回答：主要优化执行流程结构，留下任务历史、清单、分析文件等外部记录，提升可审计性和交接规范性，对语义修复能力提升温和；
验证器、多候选搜索：反而会降低部分任务的表现，验证器的本地验收标准可能与基准测试标准不一致，多候选搜索则会带来过高的开销；
动态编排：能改变任务解决的案例集合，但不会统一扩展可解决任务的范围。

这一结果打破了"控制结构越复杂越好"的误区，证明明确的模块只有在让中间行为与最终验收条件更匹配时，才能发挥价值，单纯增加流程层，反而可能降低效率。

（三）研究问题3：代码到文本的迁移，能保持效果吗？

第三个研究问题，是对比原生代码实现的控制框架，与重构为自然语言的NLAH，在相同运行时下的表现差异。研究团队在OSWorld计算机操作基准测试中，对OS-Symphony控制框架进行了迁移测试。

结果令人惊喜，迁移后的NLAH实现，任务成功率达到47.2%，远高于原生代码的30.4%。更深层的差异在于执行行为，原生OS-Symphony的控制逻辑基于截图修复循环，依赖界面检查和局部重试；而基于IHR的NLAH实现，围绕文件化状态和产物验证展开，更容易从脆弱的GUI修复，切换到文件、终端、软件包层面的操作，获取更可靠的完成凭证。

典型案例中，原生实现会陷入GUI焦点修复的循环，而NLAH实现直接切换到终端配置，通过明确的验证完成任务；表格、演示文稿任务中，NLAH实现直接操作底层文件，验证产物后再结束任务，稳定性远超原生代码。

这证明，从代码到自然语言的控制框架迁移，不是功能的损失，而是可靠性机制的升级，把依赖界面的临时修复，转变为基于持久状态和产物的稳定执行。

四、核心价值：为什么自然语言控制框架是未来？

这项研究的意义，不只是提出一个新的技术方案，更是重新定义了智能体控制框架的研究与工程范式，带来了三大核心价值。

（一）解耦控制逻辑与运行时，降低研发门槛

传统智能体系统，控制逻辑和运行时深度耦合，修改控制逻辑需要改动大量代码，只有专业工程师才能完成。而NLAH用自然语言描述控制逻辑，IHR提供通用运行时，即便没有深厚的代码功底，也能通过修改文本，调整智能体的执行流程、角色分工和验证规则。

这极大降低了智能体的定制化成本，让不同行业的开发者，都能快速适配自己的业务场景，不用从零搭建复杂的控制框架。

（二）让控制框架成为可研究的科学对象

过去，控制框架的研究被代码实现束缚，无法精准对比不同设计的效果。NLAH把控制逻辑标准化为自然语言产物，IHR提供统一运行时，研究者可以自由替换、组合、消融控制模块，在完全相同的环境下测试效果。

这让控制框架工程，从经验驱动的实践，变成可量化、可复现、可对比的科学研究，推动智能体控制逻辑的快速迭代优化。

（三）提升智能体的可迁移性与可复用性

自然语言编写的NLAH，不依赖特定代码框架和运行时环境，只要对接支持IHR标准的系统，就能直接迁移使用。这意味着，优秀的控制逻辑可以像插件一样，在不同智能体系统间复用，避免重复造轮子。

同时，文件化的状态和产物，让智能体的执行过程可审计、可追溯，满足企业级应用的合规性、安全性要求，推动智能体从实验室走向实际生产。

五、未来展望：智能体控制框架的发展方向

自然语言智能体控制框架的提出，为AI智能体的发展指明了新方向，未来还有诸多值得探索的方向。

首先，控制框架的自动化搜索与优化。当控制框架成为独立的可研究对象，未来可以通过自动化方法，搜索最优的控制模块组合，针对不同任务自动生成适配的NLAH，替代人工设计。

其次，跨任务、跨领域的控制框架迁移。现在的实验集中在代码生成、计算机操作领域，未来可以探索通用控制框架，让一套NLAH适配办公、科研、工业控制等更多场景，提升智能体的泛化能力。

再者，自然语言控制的精度提升。自然语言相比代码，存在一定的模糊性，未来可以结合结构化模板、形式化约束，提升NLAH的表达精度，减少执行歧义。

最后，安全与风险管控。可移植的控制框架在降低研发成本的同时，也可能带来风险，比如恶意控制逻辑的传播、提示注入攻击、工具滥用等。未来需要结合溯源追踪、权限控制、沙箱隔离等机制，保障智能体的安全运行。

六、结语

从大模型到智能体，AI的发展正在从"单一模型能力"，走向"系统协同能力"。控制框架作为智能体的核心调度中枢，其重要性正在被重新认知。

自然语言智能体控制框架（NLAH）与智能控制运行时（IHR）的创新，打破了传统控制逻辑的代码束缚，用通俗易懂的自然语言，重新定义了智能体的控制范式。它不仅解决了现有系统中控制逻辑难以迁移、难以对比、难以研究的痛点，更让智能体的研发变得更简单、更高效、更可控。