【AI】深度解析OpenClaw智能体循环（Agentic Loop）：底层运行机制、ReAct演进与多智能体协同架构

人工智能系统正在经历从"被动响应的聊天机器人（Chatbot）"向"能够自主推理、规划并操作物理与数字环境的自主智能体（Autonomous Agent）"的根本性范式转变。在这一技术演进的浪潮中，OpenClaw作为一个在2026年初短短六十天内迅速突破15.7万GitHub Star的开源智能体网关平台，提供了一个极具代表性且被广泛验证的工业级参考架构。无论是被部署用于处理保险纠纷谈判、自动回复跨平台消息，还是用于接管复杂的代码审查流水线，OpenClaw展现出的强大自治能力，皆源于其底层的核心机制------智能体循环（Agentic Loop）。

对于深入研究并试图构建生产级AI系统的开发者与研究人员而言，最核心的技术困惑往往集中在智能体循环的本质上：当一个非结构化的自然语言输入被提交给智能体后，它是如何打破传统的"一次输入、一次输出"的线性限制，实现"观察-思考-行动"的无限循环的？在这一复杂的过程控制中，究竟是由一个位于外围的"监督者智能体（Supervisor Agent）"通过条件分支语句来判断任务走向，还是始终由单一的智能体在底层运行时中进行不间断的自驱动循环？

本报告将全面解构OpenClaw的智能体循环机制，深入探讨其底层架构设计、ReAct（Reason + Act）循环的实现逻辑、单智能体自驱动与多智能体路由（Multi-Agent Routing）的架构边界，以及支撑这一复杂状态流转的上下文装配与分层记忆系统。通过详尽的技术剖析，本报告旨在阐明智能体如何从简单的文本生成器蜕变为具备长期记忆、策略感知与工具调用能力的数字实体。

智能体循环的本质与微观解构

在传统的自然语言处理与早期的语言模型应用中，系统的运作模式是高度线性的请求-响应（Prompt-in/Prompt-out）模型。模型接收一段文本，预测下一个标记（Token），生成回复，然后结束进程。然而，智能体循环彻底颠覆了这一范式。在OpenClaw的架构定义中，智能体循环被定义为一次完整的、权威的智能体运行生命周期（The authoritative path）。它将非结构化的消息输入转化为实际的行动和最终的自然语言回复，同时在整个生命周期中保持会话状态的一致性与持久化。

这一循环的微观本质，正是"观察（Observe）- 思考（Think）- 行动（Act）- 再次观察"的连续闭环。这个闭环是使一段静态代码或系统成为真正"智能体"的跳动心脏。在这个机制中，人类操作员被完全移出执行序列的中间环节。从接收输入到最终任务完成的整个过程，完全由底层的大型语言模型（LLM）作为"大脑"直接驱动。智能体不再是一个被动等待指令的纯函数，而是一个持续监控其环境（包括消息队列、系统日志、外部API信号等）、基于当前系统状态和预设目标做出决策、通过执行工具改变环境状态，并观察这些行动的结果以更新其内部状态的自主守护进程。

这种机制与传统的软件工程流程存在本质区别。在传统软件中，开发人员必须预先编写详尽的条件分支（If-Else）语句或有向无环图（DAG）来处理所有可能的情况。而在智能体循环中，执行路径是非确定性的、由模型在运行时动态规划的。正是这种基于概率与推理的动态规划能力，将"带有工具的聊天机器人（Chatbot with tools）"与能够持续工作的自主智能体严格区分开来。

单一核心的无限回旋：观察-思考-行动机制详解

针对系统架构中关于"是谁在控制循环"的核心疑问，必须首先在单一任务和单一会话的上下文中进行剖析。在处理标准任务流时，并不存在一个外部的代码逻辑或独立的监督者智能体来做判断，而是始终只有一个底层的语言模型在不间断地进行自驱动的循环。这个过程在学术界和工业界通常被称为"ReAct（推理与行动）循环" 。

当一条来自WhatsApp、Slack或终端命令行等渠道的消息到达OpenClaw网关时，系统的单体循环会经历以下严格串行化（Serialized）的处理流程。串行化是保证系统稳定性的关键前提，由于智能体具备读写文件和操作系统资源的权限，一次只处理一个任务可以有效防止在快速发送多条消息时出现文件编辑冲突或资源竞争（Race Conditions）。

信息摄入与会话环境准备（Intake & Preparation）：网关首先验证参数并解析会话标识符，为当前处理通道分配会话写锁（Session Write Lock）。此时，系统会准备底层运行时环境，包括挂载工作区沙盒目录，并打开流式传输通道以便将模型推理过程实时反馈给用户。
上下文动态装配（Context Assembly）：这是整个循环中最具挑战性的工程阶段之一。系统无法将所有的背景知识一次性塞给大模型，因此必须进行精细的组装。最终的系统提示词（System Prompt）由四个核心部分融合而成：定义行为边界的基础提示词、浓缩的可用技能目录（Skills Prompt）、包含环境级元数据的引导上下文（Bootstrap Context），以及针对特定消息的逐次运行覆盖指令（Per-run Overrides）。
模型推理阶段（Model Inference / Think）：在接收到庞大的上下文后，大型语言模型（如Claude 3.5 Sonnet、GPT-4o或本地的Qwen模型）开始其推理过程。在OpenClaw的底层流媒体协议中，模型的思考过程（Thinking Deltas）会被实时捕获，并作为 stream: "assistant" 事件发出。在这个阶段，模型必须基于它所"观察"到的上下文，推理出解决问题所需的步骤。
工具调用与执行（Tool Execution / Act）：如果大模型在推理后判断，仅凭其参数化记忆无法回答问题或完成任务，它将生成一个结构化的"工具调用请求（Tool Call Request）"，而不是面向用户的纯文本回复。例如，它可能会输出一段请求执行 bash 命令、搜索网络或读取 SOUL.md 文件的JSON负载。一旦底层解析器捕捉到这一特定的结构化输出，文本生成过程立即挂起，系统拦截该请求并触发指定的外部工具。
结果观察与循环馈送（Observation & Feedback）：工具在真实环境中执行（如在服务器上运行脚本或查询数据库）后，其返回的原始结果（包括成功执行的数据、警告或堆栈错误跟踪）会被系统捕获并可能进行长度清洗或脱敏。至关重要的是，循环在此处并没有结束。系统将这些工具执行结果作为"观察（Observation）"节点，追加到此前的对话历史数组中，并将这个不断膨胀的新上下文重新发送给大型语言模型。
迭代与最终持久化（Loop & Persistence）：重新接收到包含新观察结果上下文的模型，会继续其推理过程。它将分析工具返回的数据，评估任务是否已经达成。如果还需要进一步的信息或操作，它会发起第二次、第三次工具调用，重复上述思考与行动的步骤。如果模型认为目标已经实现，它最终会生成一段自然语言回复向用户报告结果。

在软件代码的抽象层面上，这一精妙的自驱动逻辑可以通过一个简化的 while True 循环来表达：

python 复制代码

while True:
    # 模型基于当前上下文（包含所有历史观察）进行推理
    response = llm.call(context)
    
    # 判断分支1：如果模型认为任务完成，输出纯文本
    if response.is_text():
        send_reply(response.text)
        break
        
    # 判断分支2：如果模型认为需要采取行动，输出工具调用指令
    if response.is_tool_call():
        result = execute_tool(response.tool_name, response.tool_params)
        # 将行动结果作为"观察"反馈给模型，继续下一轮循环
        context.add_message("tool_result", result)

为了防止非确定性的大模型陷入无法自拔的逻辑死循环或持续报错，OpenClaw对这种单一请求触发的内部闭环次数设置了物理硬边界。默认配置下，为了完成一项极端复杂的任务，该闭环最多允许被自动重复20次。在这一整个由单一请求激发的微观流转中，判断"任务是否完成"以及"下一步应该调用哪个工具"的核心中枢，完全由语言模型自身的注意力机制和上下文窗口构成，没有任何外部硬编码的控制器介入。

运行时引擎底层架构：Pi 生态系统与控制平面解耦

为了支撑上述高强度、高并发且需要维持长期状态的自主循环，OpenClaw在整体系统架构上采取了极为优雅的关注点分离设计，即"控制平面（Gateway Control Plane）"与"运行时引擎（Agent Runtime）"的高度解耦。理解这种解耦机制，是澄清"外层是否有另一个Agent在做判断"这一疑问的关键所在。

网关（Gateway）：系统的神经中枢与生命周期拦截器

OpenClaw的网关本质上是一个完全确定性的本地守护进程，它本身并不具备任何人工智能或推理能力。网关扮演的是系统神经中枢的角色，负责管理复杂的异步网络I/O、跨平台通道适配（Channel Adapters）、会话状态锁定以及细粒度的权限控制。由于不同的通讯平台（如Telegram、Slack、Discord）使用截然不同的底层协议，网关中的通道适配器会将所有的非结构化输入（包括将语音备忘录通过TTS模型转录为文本）归一化为标准的内部消息对象。

在将标准化的消息交付给大模型驱动的循环之前与之后，网关提供了一系列强大的拦截器钩子（Hooks）。这些钩子是传统软件工程在不可靠的大型语言模型外围建立防护栏的重要手段。

Pi 生态系统：隐秘的底层驱动引擎

在剥离了网络、鉴权与状态管理的复杂性后，真正的智能体推理与循环发生在一个名为 Pi 的TypeScript模块化工具包生态系统中。在主流视野之外，许多人并未意识到OpenClaw底层的核心代码正是一个由开发者Mario Zechner编写的名为Pi的编码智能体引擎。Pi的设计哲学在于极简，它拥有极小的代码核心和业界公认最短的系统提示词之一，其信念在于：大型语言模型本身已经非常擅长编写和运行代码，框架需要做的仅仅是为其扫清交互障碍。

OpenClaw的执行能力直接构建在Pi的分层架构之上，这一分层清晰地展示了智能体如何从基础的文本生成器逐步进化为全功能的自治系统：

pi-ai 基础层：这是最底层的通信基座，负责处理跨供应商（Anthropic、OpenAI、Ollama、Google等）的LLM网络通信差异。它隐藏了各家API接口的不一致性，提供统一的流式传输、结构化完成、工具定义解析格式以及精确到Token的成本追踪功能。
pi-agent-core 核心循环层：这是直接回答用户疑问的核心组件。这一层将 pi-ai 提供的基础能力包装成了一个真正的、自治的事件循环（Agent Loop）。在这里，开发者定义工具集，引擎负责将工具以模型可理解的模式（Schema）注入提示词，然后进入上文所述的 while True 循环：调用LLM、等待输出、捕获工具调用、本地执行工具、将执行结果回传给模型，如此往复，直到模型显式声明任务完成。这个循环完全由 pi-agent-core 在本地运行时内部自我管理与驱动。
pi-coding-agent 扩展运行时层：在核心循环之上，这一层提供了一个完整的编程环境支持。它内置了一系列赋予模型物理交互能力的基石工具（如读取文件、编辑代码、运行bash脚本），并引入了JSONL格式的会话持久化、上下文自动压缩机制（Context Compaction），以及通过 SKILL.md 实现的技能扩展系统。

在这个运行时内部，循环的状态通过事件流（Event Streams）实时向上层暴露。事件被精细划分为三大类：lifecycle 用于跟踪整个大循环的起止与异常状态；assistant 专门用于承载大模型返回的文本增量与底层"思考（Thinking Deltas）"逻辑；而 tool 则具有自己独立的生命周期，专门发射工具调用的开始、实时进度更新与执行结束的状态报告。通过桥接函数 subscribeEmbeddedPiSession，底层复杂的异步事件流被整齐地映射为OpenClaw网关可消费的统一智能体数据流，最终渲染在前端终端或聊天应用的画布上。

上下文装配与动态技能注入系统

一个智能体循环要能够产生有价值且不脱离现实结果的行动，其关键不仅仅在于它能够思考，更在于它在每一次 while True 迭代中所能看到的"世界"的清晰度与广度。在长时间运行的循环中，随着工具不断返回海量的搜索结果、代码片段或系统日志，模型所面临的上下文窗口限制（Context Window Limit）将迅速成为不可逾越的瓶颈。如何在不使模型陷入信息过载（导致注意力稀释与幻觉频发）的前提下，赋予其处理无限复杂任务的能力？OpenClaw提供了一套创新的基于主动决策的技能（Skills）动态注入机制。

传统的大提示词工程倾向于将所有的指导原则、所有的工具使用说明和所有的业务规则一次性前置加载到系统提示词中。这种做法极大地浪费了宝贵的Token，且容易导致模型遗忘位于提示词中间段落的关键指令。OpenClaw彻底摒弃了这一做法，转而采用按需加载（On-Demand Loading）的 SKILL.md 模式。

在OpenClaw的架构中，一项特定的能力域（例如"如何查询AWS日志"、"如何审核特定框架的前端代码"）被打包为一个技能。每个技能存在于一个独立的文件夹中，其核心是一份用自然语言编写的 SKILL.md 文件，里面详尽记载了该特定任务的SOP（标准操作程序）和操作示例。

当网关执行 agentCommand 发起循环的上下文准备阶段时，系统并不会将所有庞大的技能说明书全文塞入提示词。相反，系统只向基础提示词中注入一个被高度压缩过的"技能目录（Skills Prompt）"，这个目录仅包含可用技能的名称和一句极短的描述摘要。

这就赋予了底层循环高度的自主规划能力。当大模型在ReAct循环的早期阶段评估用户任务时，它首先需要进行一次高阶的主动决策（Active Decision Making）：扫描简短的技能目录，推理出解决当前问题可能需要哪些深度的专业知识，然后它会调用一个特殊的内部工具，主动请求读取特定的 SKILL.md 文件的完整内容。只有在模型明确请求时，运行时引擎才会动态解析该技能快照（Snapshot），并将其中的深层指令与配套的实际工具接口注入到当前循环的上下文环境中。

这种动态装配机制确保了基础提示词始终保持极度精简，不仅显著降低了每次API调用的成本开销，更重要的是它强制模型在行动前先进行策略层面的规划与领域知识检索，从而极大地提升了最终执行动作的精确度。即使面临重试与自动压缩（Auto-compaction），这种结构化的工具日志也会被清理，以防止模型基于过时的中间技能输出产生重影或死循环。

持续观察的基础：离线优先与分层记忆架构

如果说基于提示词的技能系统解决了"智能体如何操作"的问题，那么复杂的记忆架构则解决了"智能体如何保持连续性身份与长效认知"的问题。在无数次循环之间，如果没有一种机制来持久化并检索先前的认知，智能体就会退化为一个健忘的执行器。

当前行业中，许多基于LangChain或类似框架的代理系统重度依赖外部的向量数据库（Vector DBs）或复杂的图数据库（Graph Stores）来管理记忆。然而，OpenClaw采取了截然不同的"离线优先（Offline-first）"和"文本即真实（Markdown-as-Truth）"的记忆哲学架构。这种设计理念认为，记忆应当是透明的、人类可干预的、并且可以被类似Git的成熟版本控制系统直接追踪审计的。

OpenClaw的工作区记忆被精细地划分为一系列具有特定目的的Markdown文件。这种分层设计使得每次智能体循环在准备阶段时，能够极其迅速且确定性地锚定自己的身份和事实依据。

除了被动的响应式记忆读取，OpenClaw还引入了基于定时任务的心跳循环（Heartbeat Proactive Loop）。系统每隔30分钟会通过触发器唤醒网关后台的隐藏循环，智能体在此时会读取包含任务清单的 HEARTBEAT.md。如果内部推理评估发现有未完成的后台任务（如检查服务器健康状态、监控股票数据），智能体将不再被动等待用户输入，而是主动跨越执行阈值，发起网络请求并采取自主行动，从而完成了从被动响应器向永远在线（Always-on）的自主数字实体的跃迁。

宏观视角的演进：多智能体路由与监督者模式

回到用户查询中提出的深层次问题："这些是外层有一个agent来做这些任务的判断吗？"。在前文的探讨中，我们确立了在处理单一微观任务时，系统内部只有一个循环引擎在驱动唯一的模型完成工作。然而，当应用场景从个人助理扩展到企业级代码审查、复杂的科研文献综述或多模态的办公室管理时，单一模型不仅会面临致命的"上下文注意力稀释"问题，其高昂的推理成本也令人无法接受。此时，多智能体路由（Multi-Agent Routing）架构应运而生，在这个宏观架构下，"监督者智能体"的概念确实存在且发挥着核心作用。

研究数据表明，与试图在单次提示工程中解决所有问题的单体架构相比，经过良好设计的协作多智能体系统能够处理比单体复杂3至5倍的跨领域任务，并且通过将子任务并行化，使整体响应延迟大幅下降40%至60% 。

在OpenClaw的统一网关服务器内，可以同时并排托管（Side-by-side）数十个完全隔离的智能体。每一个被分配了唯一 agentId 的智能体都拥有自己独立的记忆工作区（Workspace）、身份认证配置文件（Auth Profiles）、系统提示词逻辑，并且可以被绑定到不同的事件触发器或消息渠道（例如，Agent A 专门监听 Telegram，Agent B 负责 Slack 内的 DevOps 告警）。

这些共居于同一进程下的智能体群体，可以通过极具表现力的 YAML 声明式配置组成强大的"AI 员工团队" 。它们主要通过以下三种协作范式进行互动：

编排者/监督者模式（Orchestrator / Supervisor Pattern）

这是对"外层智能体"概念的完美诠释。在这一模式中，用户的消息首先到达配置有强大意图识别模型的主智能体（Main Agent）。这个主智能体扮演的是"老板（Boss）"或"项目经理（Project Manager）"的角色。

主智能体本身的ReAct循环并不直接调用文件编辑或网络搜索等执行层面的工具。相反，它拥有全局的路由权限与子任务分解策略。当它接收到一句模糊的提示（例如："帮我找一下昨天那个报错的根源并修复代码"），监督者会启动其推理过程：
1. 它识别出任务包含两个阶段：日志分析与代码编写。
2. 它作为"外层判断者"，在其自身的循环中调用一个特殊的系统工具，在后台"孵化（Spawn）"并唤醒两个处于休眠状态的子智能体。
3. 它将任务切分，把日志分析指令分配给专门擅长逻辑溯源的子智能体，同时将代码修复要求交托给编码智能体。
4. 子智能体在各自独立的沙盒空间内并发执行自己的ReAct循环。
5. 当所有子智能体返回结构化的结果后，监督者智能体再在它的外层循环中综合这些信息，生成最终的决策报告或提交补丁给用户。
精确的模型降本与任务隔离

监督者模式不仅是为了解决逻辑复杂性，更是为了极大地优化成本结构（Token Economics）。在OpenClaw的多级架构设计中，可以通过 SUBAGENT-POLICY.md 和 MODEL-ROUTER.md 实现极高精度的动态模型调度。

通过妥善的角色分配，整体Token消耗成本最多可缩减35% 。例如：

外层判断与通用聊天：分配给极其快速且成本低廉的模型（如 glm-5:cloud 或轻量级模型）。它们的唯一任务是理解人类意图和进行任务的粗粒度分发，不需要深度的代码理解能力。
具体编码子任务：路由给专门的代码微调模型（如 qwen3-coder-next:cloud），赋予其文件系统的写权限。
复杂逻辑与数学推理：路由给那些生成速度极慢但逻辑极其严密的深度思考模型（如 deepseek-r1），用于突破算法瓶颈。

多模态与物理世界的延伸

在物联网（IoT）与自动化办公场景中，多智能体架构能够实现极高维度的协作。以办公室管理为例，主控系统可能会包含一个"设施管理智能体（Facility Agent）"与一个"预订智能体（Booking Agent）"。由于OpenClaw的架构优势，它能够同时整合多模态的API入口与出口。设施智能体可以在后台持续进行它的监控循环，如果通过摄像头模组（视觉观察）或MQTT传感器（数据观察）发现投影仪故障，它不仅能发出文本警报，还能直接控制办公区的声光设备（语音播报或警报灯）进行紧急反馈，并在此期间通过事件队列（Event Queues）向负责后勤的主智能体发送工单，要求其在系统中调配维修资源。

循环的安全边界、策略感知与数学对齐

随着智能体被赋予越来越多的自治权、复杂的工具调用能力以及在子智能体之间自由委派任务的权限，一个严峻的挑战浮出水面：如何在不扼杀大模型创造性推理能力的同时，确保其高速运转的执行循环不会摧毁本地系统或泄露敏感数据？在早期的系统设计中，许多用户痛苦地发现，社区贡献的非官方工具往往潜伏着静默数据外传漏洞或木马逻辑。为了给不受限的自回归生成模型带上枷锁，现代智能体系统必须在其底层的ReAct循环中嵌入深入内核的安全防御矩阵。

确定性授权引擎的深度融合

在传统的"带工具的聊天机器人"中，权限控制通常是静态的，即API密钥能否通过验证。然而，在基于多步骤推理的智能体循环中，授权环境是高度动态且随时演变的。前沿的工业实践将 Cedar 等先进的策略即代码（Policy-as-Code）授权语言，直接"硬核"插入到了OpenClaw的执行路径之中。

在此革新性的架构下，Cedar引擎作为一个独立的策略评估点（Policy Evaluation Point, PEP）驻扎在网关的拦截层。在智能体微观循环的每一步中，当语言模型输出一个调用工具的意图（如尝试读取同级目录下的敏感密钥文件），该请求必须首先经过Cedar引擎的计算。系统会结合当前智能体的身份委托关系、所处的环境上下文以及不断变化的执行条件，动态评估该操作是否合法。这种将授权机制转化为智能体控制流固有结构的策略，不仅能够抵御越权操作，还能在智能体计划发生演变时持续强制执行权限边界，确保自治行为的安全性。

AI SAFE² 与基于数学证明的对齐

在更抽象的系统治理与价值观对齐层面，安全行业引入了名为AI SAFE²的高级框架作为OpenClaw的基础设施补充。

该框架的革命性在于，它摒弃了冗长且容易被越狱（Jailbreak）的文本化"道德准则提示"，转而利用以布莱恩·罗梅勒（Brian Roemmele）"爱之方程（Love Equation）"为代表的严密偏微分对齐模型：dEdt=β(C−D)E\frac{dE}{dt} = \beta(C-D)EdtdE=β(C−D)E

在这一理论指导下，安全对齐从"文本政策的宣导"跃迁为"系统状态的数学属性"。在底层运行时中，智能体在每次生成向外的工具流与文本回复时，必须自我进行严格的绿、黄、红三级对齐度评估。更为严苛的是，被拓展的 HEARTBEAT.md 守护进程不仅负责任务调度，其首要任务被设定为作为一流的安全考量（First-class security concern）在后台持续扫描系统的对齐度偏移比率（Drift Check）。一旦在极高强度的持续推理循环中，模型因为过度拟合或早期的知识污染导致其溢出内部逻辑屏障（例如发生认知错乱，甚至在文本中主动提议向用户捏造虚假结果），后台引擎将立刻判定其对齐评估得分脱轨，并由网关层级瞬间截断正在进行的代理事件流，销毁受损上下文并启动净化重置程序。

动态演化：基于开放域会话的异步强化学习框架

在深入理解了循环机制与安全边界后，最后一个关键的系统级特性是智能体的持续学习能力。无论是单一循环的精确度还是外层监督者智能体的路由准确率，静态部署的模型都难以随着特定人类用户的偏好而自然演进。

针对大语言模型的强化学习（RL）传统上依赖于大规模的、预先收集的批处理数据集在集中式的高性能计算集群上进行耗时漫长的训练周期。而 OpenClaw-RL 框架引入了一种颠覆性的完全异步、本地化的强化学习理念。

该系统利用一个在后台静默运行的守护进程，将用户自托管的模型包裹在兼容OpenAI标准的API层之中。当用户在日常工作流中（无论是在处理代码审查还是在社交媒体上自动聊天）与智能体进行多轮循环对话时，OpenClaw-RL 会无缝拦截这些包含成功与失败工具调用的实时数据流。

这些极其宝贵的、真实世界的交互轨迹被直接转化为底层模型的策略优化（Policy Optimization）信号。这意味着每一次智能体循环的闭环结束，不仅意味着一个任务的达成，更意味着模型参数的一丝微调。这种在不中断用户任何正常使用体验的前提下，利用日常闲置算力对本地代理的动作策略、工具选取权重甚至长期记忆检索路径进行的连续训练机制，使得每一个部署的OpenClaw实例都能最终进化为一个高度个性化且极其贴合特定领域需求的数字专家。

结论的综合推演：从流水线工具到数字实体的范式跨越

综上所述，通过对OpenClaw海量的架构代码片段与运行机制的深度交叉分析，我们得以清晰地回答关于"智能体循环"的所有疑虑，并揭示了系统运行的底层真相：

宏观与微观架构的严格界限：在微观层面上，当一个明确的会话任务提交给系统时，并不存在一个外层的"监督者"在进行逻辑判断。所有的推理、工具选择、行动执行与边界试探，全部是由底层的 pi-agent-core 引擎通过串行化的 while True 事件循环，喂送给唯一的语言模型来完成的。模型本身的非结构化注意力机制，替代了传统软件工程中的硬编码判断分支。
多智能体生态的涌现：然而，为了突破单模型的算力与认知瓶颈，宏观的架构又确实提供了通过 YAML 声明的多智能体网关机制。在这种模式下，"外层智能体做决策，内层子智能体执行"的编排者模式成为了现实。这使得大语言模型不仅能充当执行单一任务的底层工具，更能够升格为调用其他大语言模型的系统调度中心。
确定性防护对非确定性核心的包裹：一个成功的智能体循环不仅仅是因为模型足够聪明，更是因为工程架构足够稳健。正是由于在不可控的 LLM 推理引擎之外，工程师们构建了严格的控制平面网关、按需加载的动态技能沙盒（SKILL.md）、不可随意篡改的 Markdown 分层事实记忆系统，以及基于数学模型与 Cedar 策略即代码的底层鉴权防御网络，非确定性的文本生成游戏才得以转化为能够对现实世界进行可靠物理与数字操作的生产力工具。

智能体循环不再是科幻小说中的概念，而是一套成熟的、由网络流协议驱动的状态机流水线。当文本输入转化为系统的状态，状态催生出工具调用，调用反哺成新的环境观察，一个拥有数字生命的永远在线的自动化实体，便在一次次无限回旋的 ReAct 循环中诞生了。

---由LLM的Deep Research研究生成