从工具到存在：WSaiOS Agent 标准规范研究

摘要

大语言模型的快速发展正在推动人工智能从"生成"范式向"行动"范式迁移，智能体（Agent）系统成为这一变革的核心载体。然而，当前Agent系统的构建普遍缺乏操作系统层级的抽象与规范，导致系统扩展性差、行为不可控、协作效率低下。本文以WSaiOS Agent标准规范（WAS-200）为研究对象，系统阐述其设计理念、架构体系与核心机制。研究发现，WSaiOS将Agent明确定义为"拥有身份、能力、记忆、策略、生命周期、通信能力及可运行于WSaiOS Kernel的自治智能单元"，并通过身份优先、能力驱动、无状态执行、多模型原生、可组合、可观测、默认安全七大原则，构建了从元数据规范、四级记忆体系到三循环执行模型的完整技术框架。WSaiOS Agent的本质贡献在于将Agent从"被调用的工具"提升为"持续运行的自主实体"，为AI操作系统时代的应用构建提供了标准化的执行单元规范。这一工作标志着操作系统生态正从传统的应用分发向能力分发范式转变，为构建大规模、高可靠、可治理的Agent系统提供了理论基础与实践路径。

关键词：AI操作系统；智能体；WSaiOS；Agent规范；三循环模型

1 引言

人工智能领域正在经历一场深刻的范式转移。传统的大语言模型（Large Language Model, LLM）本质上是强大的生成引擎，能够续写文本、翻译语言或总结摘要，但其能力边界止于"知道"答案。随着技术演进，人们不再满足于AI仅仅"知道"答案，而是期望AI能够"行动"并"解决"问题。这一需求催生了AI智能体（Agent）概念的爆发------Agent不仅能够理解指令，还能自主规划、调用工具、执行任务，并在过程中持续学习和进化。

然而，当前Agent系统的构建普遍面临一个根本性的架构困境：大多数Agent实现仍处于"裸机"编程阶段，缺乏操作系统层级的抽象与治理。现有的Agent框架（如工具调用、Model Context Protocol、Agent-to-Agent消息传递）虽解决了某些孤立的方面，但缺乏统一的、安全优先的、延迟感知的基础设施，难以满足企业级和安全关键型部署的需求。正如计算机在操作系统诞生之前，每个应用程序都需要自行管理硬件资源，当前的Agent开发也面临着类似的"前操作系统时代"的混沌局面。

正是在这一背景下，WSaiOS（Wisdom Self-Adaptive Intelligent Operating System）提出了Agent标准规范（WAS-200），试图为AI Agent的构建提供操作系统层级的抽象与标准化。WSaiOS将Agent明确定义为"一个拥有身份（Identity）、能力（Capability）、记忆（Memory）、策略（Policy）、生命周期（Lifecycle）、通信能力（Communication）以及可运行于WSaiOS Kernel的自治智能单元"，并确立了"Agent不是Prompt，Agent不是Model，Agent是WSaiOS Runtime的最小执行单位"这一核心定位。

本文旨在对WSaiOS Agent标准规范进行系统的学术分析与研究。我们将从设计理念、架构体系、核心机制三个维度展开论述，并在此基础上探讨该规范的理论贡献与实践意义。研究的核心问题是：WSaiOS如何通过标准化的Agent规范，解决当前Agent系统构建中的碎片化与治理缺失问题？其设计哲学与关键技术决策对AI操作系统的发展有何启示？

2 相关研究：从多智能体系统到AI操作系统

2.1 多智能体系统的历史根基

Agent操作系统的概念虽因大语言模型的兴起而获得新的关注，但其思想根源可追溯至20世纪90年代的多智能体系统（Multi-Agent Systems, MAS）研究。Open Agent Architecture（OAA）采用中央黑板机制协调异构Agent，强调委派与中介的角色。JACK Intelligent Agents将信念-期望-意图（BDI）模型引入Java环境，为理性Agent行为提供了工程化框架。JADE等平台则进一步扩展了Agent生命周期的管理与互操作性标准，FIPA Agent Communication Language（ACL）为Agent间的消息传递与协商语义建立了标准化基础。

这些早期工作为Agent系统的生命周期管理、通信协议和协调机制奠定了重要基础。然而，这些系统主要面向符号型或规则型Agent，其关注焦点在于服务组合而非LLM-centric的工具使用与多模态交互。当今天的Agent需要协调模型调用、数据访问、界面操作与环境交互，并同时满足企业级的可观测性与治理要求时，历史系统的局限性便暴露无遗。

2.2 AI操作系统的当代探索

近年来，学术界与工业界涌现出多个将操作系统思想引入AI Agent领域的尝试。Conceptual proposals如"LLM as OS, Agents as Apps"将LLM类比为操作系统内核，以自然语言作为交互接口，Agent则被视为运行于其上的应用程序。这一视角启发了AgentStore------一个面向异构Agent的"应用商店"，通过元Agent进行任务委派，在OSWorld基准测试中将性能从11%提升至24%。KAOS在麒麟操作系统上实现了管理角色Agent的资源调度与垂直协作。AIOS则提出了LLM Agent Operating System的核心理念，通过统一的系统调用接口，管理上下文、记忆、存储、工具与访问控制。

工业界的探索同样活跃。PwC Agent OS作为跨平台编排的"交换台"，集成GPT-5与AWS/Oracle等云服务。微软的Copilot Runtime通过Phi Silica暴露本地模型能力，苹果的Intelligence则形式化了应用意图（App Intents）。标准化层面，MCP（Model Context Protocol）提供了工具访问的标准化接口，A2A（Agent-to-Agent）规范了Agent间通信协议，OpenTelemetry则为可观测性提供了统一标准。

然而，现有探索仍存在两个结构性缺口。其一，大多数工作缺乏需求驱动的操作模型，未能将可靠性、性能、安全性、可扩展性与互操作性等系统级属性以可移植、可测试的形式明确陈述。其二，时间语义鲜少被提升至可强制执行的契约层面，对硬实时、软实时与延迟容忍等不同时延类别缺乏针对性的调度、I/O、内存与网络策略。这些缺口的本质在于：当前的Agent系统构建仍然缺乏一个统一的、操作系统级别的抽象层。WSaiOS Agent规范的提出，正是对这一缺口的回应。

3 WSaiOS Agent的设计理念

WSaiOS Agent规范的设计遵循七大核心原则，这些原则共同构成了Agent作为WSaiOS Runtime基本执行单元的哲学基础。

3.1 身份优先（Identity First）

每个Agent在WSaiOS生态中拥有唯一且持久的身份标识。Global Agent ID（GAID）采用URI格式（如ws://agent/vision/image-generator），既确保了全局唯一性，又通过路径结构表达了Agent的功能域归属。Agent的身份不仅包括名称与命名空间，还包含Owner信息与公钥，支持签名验证与信任建立。这一设计的深层逻辑在于：在AI操作系统时代，Agent不再是临时实例化的无状态函数，而是具有持久身份的实体------Agent可以永久存在，其身份的连续性构成了信任与治理的基础。

值得注意的是，身份优先原则与Hermes Agent项目中SOUL.md的设计理念形成呼应。Hermes将Agent的身份（Soul）作为系统提示词的第一层进行组装，定义"You are Hermes, an AI assistant created by Nous Research. You are an expert software engineer and researcher."这一设计决策的核心在于：身份是Agent一切行为的锚点，它决定了Agent的认知框架与行为边界。

3.2 能力驱动（Capability Driven）

Agent通过可插拔的Capability描述自身能力边界，例如Read PDF、Generate Image、Run Python、Search Web等。能力是Agent功能的最小单元，具有独立性、可组合性、权限受控与版本化特征。能力驱动设计的精妙之处在于：它将Agent"能做什么"与"如何做"解耦------Agent声明自身具备的能力集，由Kernel通过能力匹配（Capability Matching）将任务需求与Agent能力进行语义匹配，选择最优执行者。这一机制使得Agent的扩展变得标准化：新增能力只需实现统一接口，无需修改Agent核心逻辑。

3.3 无状态执行与多模型原生

WSaiOS Agent默认执行无状态，上下文由Kernel统一管理，Memory作为可选扩展。这一设计遵循操作系统对进程管理的经典抽象------进程本身不持有持久状态，状态由内核通过进程控制块管理。无状态执行的益处在于：Agent实例可被随意调度、迁移与回收，系统整体的弹性与可扩展性得以保障。

与此同时，一个Agent可以绑定多个模型（GPT、Claude、Gemini、Qwen、DeepSeek等），由Kernel的模型路由器根据任务类型动态调度。例如，推理任务可路由至Claude，编码任务路由至GPT，图像生成路由至Flux，搜索任务路由至Gemini。这种多模型原生设计突破了单一模型的能力天花板，使Agent能够根据不同任务的特征选择最适宜的推理引擎，实现了"模型即资源"的操作系统级抽象。

3.4 可组合、可观测与默认安全

Agent可以组合Agent，形成层次化的Agent组织结构。例如，Research Agent可组合Search Agent、PDF Agent、Summary Agent与Citation Agent，形成协同工作的Agent团队。这种可组合性使得复杂任务能够通过Agent的递归分解得到处理。

可观测性要求Agent的所有行为（Input、Output、Reason、Cost、Latency、Tool、Memory、Event）必须可被记录与追踪。在安全方面，所有权限默认关闭------filesystem、camera、microphone、network、database、payment等敏感资源的访问均需明确的Capability授权。这一"默认安全"原则体现了零信任安全模型在Agent系统中的实践。

4 WSaiOS Agent的架构体系

4.1 总体架构

WSaiOS Agent Runtime位于语义层与执行层之间，负责将Semantic Kernel输出的Task Graph转化为具体的Agent行为执行。其总体架构由十大核心模块构成：Agent Scheduler（调度器）、Agent Manager（管理器）、Agent Executor（执行引擎）、Agent Communication Bus（通信总线）、Agent Memory Bridge（记忆桥）、Agent State Controller（状态控制器）、Agent Collaboration Engine（协作引擎）、Agent Tool Interface（工具接口层）、Agent Lifecycle Manager（生命周期管理）以及Agent Safety & Governance（安全与治理）。

这一架构设计的核心洞见在于：Agent Runtime是一个"跨层级治理"的关键枢纽。上层Agent框架知晓Agent的身份、角色与调度结构，下层推理引擎能够观测每一个底层事件，但二者之间缺乏有效的沟通桥梁。大量跨层级的治理策略------如前缀缓存、批处理整形、推测执行、公平性调度、工具结果记忆化、安全执行------恰恰依赖于对两层信息的联合认知。Agent Runtime正是填补这一鸿沟的系统层。

4.2 Agent元数据与身份规范

每个Agent必须携带结构化的元数据，包括Agent ID、Name、Version、Author、Description、License、Category、Capabilities、Dependencies、Permissions、Memory Type、Model、Runtime与Protocol Version等字段。元数据的标准化使得Agent的发现、匹配、调度与治理成为可能------Kernel可通过元数据判断Agent的能力边界、资源需求与信任等级，从而做出合理的调度决策。

身份规范要求Agent的ID全局唯一，推荐使用URI格式（如ws://agent/search），并包含UUID、Name、Namespace、Owner与Public Key。URI格式的选择具有深意：它不仅确保了唯一性，还通过路径结构编码了Agent的功能归属与层级关系，便于构建层次化的Agent发现与路由机制。

4.3 四级记忆体系

WSaiOS定义了四级Memory体系，这是其区别于传统Agent框架的关键创新之一：

· L0（运行时内存）：生命周期限于单次Task，用于存储当前执行的瞬时上下文。

· L1（会话内存）：生命周期限于单次Session，用于维护一次完整对话的连续性。

· L2（工作区内存）：项目级记忆，如Git Repo、Workspace、Folder，支持跨会话的项目上下文复用。

· L3（持久内存）：长期记忆，存储Preference、Knowledge、History、Profile等跨项目、跨会话的持久信息。

这一分级设计体现了对Agent记忆需求的深刻理解。不同层级的记忆具有不同的访问频率、持久性要求与容量特征，统一的Store/Retrieve/Delete/Search/Snapshot接口则提供了操作的一致抽象。作为对照，Hermes Agent采用两级记忆------MEMORY.md（Agent个人笔记，约800 tokens）与USER.md（用户档案，约500 tokens），虽然简洁，但在跨项目记忆与长期知识积累方面的表达能力有限。WSaiOS的四级体系为更复杂的记忆管理需求提供了更精细的粒度。

5 三循环核心模型

5.1 从ReAct到三循环的范式演进

WSaiOS Agent最核心的理论贡献在于提出了"思考-执行-反思"三循环模型，将Agent从传统的"规划→执行→结束"线性范式提升为"思考→执行→反思→再思考"的持续进化闭环。

这一演进有其清晰的理论脉络。ReAct（Reasoning + Acting）模式首次将推理与行动结合，通过"推理→行动→观察"的迭代循环解决了传统LLM缺乏外部反馈的问题。Plan-and-Execute模式强调先制定完整的分步计划再按步骤执行。Reflection模式则通过语言反馈而非权重更新来强化Agent的行为策略。WSaiOS的三循环模型并非简单叠加上述模式，而是将"思考""执行""反思"重构为三个独立运转又相互耦合的持续循环------思考循环负责将意图转化为计划，执行循环负责将计划转化为行动，反思循环负责评估结果并优化策略。三个循环首尾相连，形成无限进化的闭环系统。

5.2 思考循环：从意图到计划

思考循环是Agent的"大脑皮层"，负责将模糊的用户意图转化为可执行的行动计划。其处理流程包括：理解任务（识别本质需求、约束条件与成功标准）、拆解目标（将高层次目标分解为可执行的子任务序列）、生成计划（包含"做什么""用什么做""什么时候做""如果失败怎么办"等维度）、策略选择（在多个可行方案中综合效率、成本与风险进行优化）、形成执行图（将计划转化为可被执行引擎直接调度的Task Graph）。

思考循环依赖的核心能力包括意图理解、上下文构建、目标拆解、推理与规划、工具选择判断与风险预判。其最终输出是一个结构化的执行计划------Task Graph，通常表现为有向无环图（DAG）或更一般的任务依赖图。

5.3 执行循环：从计划到行动

执行循环是Agent的"手脚"，负责将计划转化为现实动作。其处理流程为：接收执行计划（解析与验证Task Graph）、Agent调度（根据依赖关系与资源可用性决定执行顺序与并行策略）、能力调用（调用LLM推理、工具API或工作流DAG）、外部交互（读取文件、发送请求、操作数据库等）、结果生成（汇总各步骤输出形成结构化结果）。

执行循环支持多种执行方式的灵活组合：大模型推理（处理认知密集型任务）、工具调用（通过API/插件/数据库扩展能力边界）、工作流执行（按预定义DAG执行标准化流程）与多Agent协作执行。其输出是执行结果与系统状态的变化。

5.4 反思循环：从结果到进化

反思循环是Agent的"元认知"系统，负责评估执行结果、总结经验教训、优化行为策略。其处理流程包括：结果评估（多维度评价任务完成度、输出质量、执行效率与资源消耗）、错误分析（深入诊断失败原因------是计划缺陷、工具选择不当还是外部环境变化）、成功/失败判断（基于预定义标准做出明确判定）、经验写入记忆（将执行轨迹与经验教训持久化）、策略更新（基于反思结果调整决策逻辑与参数配置）。

反思循环使Agent具备了"从经验中学习"的能力------不是通过权重更新，而是通过记忆沉淀与策略调整。这种学习机制虽然不如深度学习中的梯度下降那样数学上严谨，但在实际应用中具有显著的实用价值：它不需要大量标注数据，能够从单次经验中即时学习，且学习结果可解释、可审计。

6 讨论：理论贡献与实践意义

6.1 Agent本质的重新定义

WSaiOS Agent规范最根本的理论贡献在于重新定义了Agent的本质。在传统视角下，Agent通常被理解为"能够自主执行任务的软件实体"------这一定义虽然正确，却缺乏对Agent"存在方式"的深入刻画。WSaiOS将Agent明确定义为"一个通过'思考→执行→反思'持续循环，不断优化自身行为策略的自适应智能执行单元"。这一定义的革命性在于：Agent不是工具、不是函数、不是流程，而是会学习、会调整、会进化的执行智能体。

这一认知的转变将Agent从"被调用的能力单元"提升为"持续运行的自主实体"。在传统系统（如RPA、工作流引擎）中，执行单元是线性的、一次性的、无反馈的------规划完成即执行，执行完成即结束。在WSaiOS的框架下，Agent是循环的、持续的、自适应的------它在执行中学习，在反思中进化，在循环中持续提升自身能力。这一区别决定了两种系统在能力边界上的根本不同。

6.2 操作系统抽象的适用性边界

将操作系统概念应用于AI Agent领域，既带来了显著的收益，也面临独特的挑战。WSaiOS的成功尝试表明，进程管理、内存管理、调度、安全等OS核心抽象在Agent系统中具有强大的解释力与指导价值。Agent作为"进程"、Capability作为"系统调用"、Memory作为"内存层级"、Scheduler作为"调度器"------这些类比不仅具有概念上的优雅性，更在实践中提供了清晰的架构指引。

然而，Agent与经典进程之间存在本质差异。Agent的行为是概率性的（依赖LLM的生成），而进程的行为是确定性的；Agent的"执行"涉及与外部世界的交互，而进程的执行主要局限于计算空间；Agent需要"理解"与"推理"，而进程仅需"执行"。这些差异意味着Agent OS不能简单复制传统OS的设计模式，而必须在保留OS抽象精髓的同时，发展出适应AI Agent独特性的新机制。WSaiOS的三循环模型、模型路由器与四级记忆体系，正是这种适应性创新的体现。

6.3 局限与未来方向

WSaiOS Agent规范仍处于"草案标准"阶段，其实际应用效果尚需更广泛的实践验证。当前文档主要呈现了规范的设计蓝图，关于具体实现、性能基准与大规模部署经验的公开信息仍有限。此外，三循环模型中的"反思"环节如何有效实现------特别是在复杂任务中如何准确判断成功/失败、如何从错误中提取可泛化的教训------仍是一个具有挑战性的开放问题。

未来研究方向包括：Agent间的协作协议与标准化（WAS-200已声明兼容MCP与A2A，但具体集成细节有待展开）、Agent的可解释性与审计机制（尤其是反思过程的透明化）、以及Agent的自演化能力（WSaiOS v2.6已展示自主架构生成的初步探索）。

7 结论

WSaiOS Agent标准规范（WAS-200）是对AI Agent系统构建的一次系统性尝试。它借鉴操作系统的经典抽象，将Agent定义为拥有身份、能力、记忆、策略、生命周期、通信能力与运行时的自治智能单元，并通过七大设计原则、十大架构模块、四级记忆体系与三循环核心模型，构建了从元数据到执行机制的完整规范框架。

这一工作的本质贡献在于：它将Agent从"被调用的工具"提升为"持续运行的自主实体"，为AI操作系统时代的应用构建提供了标准化的执行单元。正如经典操作系统通过进程抽象将程序从硬件细节中解放出来，WSaiOS通过Agent规范将智能应用从模型调用、工具集成与状态管理的碎片化中解放出来。

当前，Agent系统的发展正处于类似计算机"前操作系统时代"的混沌阶段------每个开发者都在重复造轮子，系统行为缺乏统一治理，大规模部署充满风险。WSaiOS Agent规范的意义，正在于为这一混沌提供秩序：一个统一的Agent抽象、一套标准化的治理机制、一个可组合的生态基础。这不仅是技术文档的编写，更是AI基础设施演进的重要一步。

参考文献

$1$ WSaiOS Agent Standard Specification, Version 1.0, WAS-200.

$2$ A. Koubaa, "Agent Operating Systems (Agent-OS): A Blueprint Architecture for Real-Time, Secure, and Scalable AI Agents," SMARTTECH 2025.

$3$ "WSaiOS Agent Runtime: 面向语义任务执行的智能体运行时系统架构设计," CSDN, 2026.

$4$ "认知-执行-反思：WSaiOS智能体三循环核心模型研究," CSDN, 2026.

$5$ "WSAIOS v2.6：自主架构生成式AI操作系统," CSDN, 2026.

$6$ "认知即资产：WSaiOS Marketplace的设计哲学与技术架构," CSDN, 2026.

$7$ Hermes Agent Documentation: Prompt Assembly & Persistent Memory.