不止于 UI：OpenWork 的核心哲学与“引擎+外壳”架构全景图

在 AI Agent 领域，我们正处于从"对话框（Chat）"向"执行器（Worker）"跨越的关键节点。

最近，开源项目 OpenWork（different-ai/openwork）在开发者社区引起了广泛关注。很多人初看它，觉得它只是一个开源版的 Claude Coworker，但深入研读其源码后，你会发现其核心价值并非那个精美的桌面外壳，而是一套严谨的**"引擎+外壳"**解耦架构。

今天，我们将从源码出发，拆解 OpenWork 的核心哲学及其背后的技术全景图。

在 OpenWork 的设计中，有三个贯穿始终的关键词：透明（Transparent）、私有（Private）、可扩展（Extensible）。

与闭源 Agent 不同，OpenWork 的核心哲学是将控制权交还给用户：

OpenWork 的源码组织非常清晰，采用了典型的 Monorepo 结构。我们可以将其高度概括为"引擎（Engine）"与"外壳（Shell）"的协作模型。

OpenWork 的桌面端位于 packages/app。

为什么选择 Tauri？ 与 Electron 相比，Tauri 利用了系统的原生 WebView，极大缩小了安装包体积，并通过 Rust 后端提供了更安全的系统级 API 访问。
交互逻辑： UI 层不仅仅是聊天窗口，它更像是一个"指挥中心"。它通过事件流（Events）与后台引擎通信，实时展示 Agent 的思考过程、当前动作（Action）以及结果反馈。

这是 OpenWork 的灵魂所在，主要分布在 packages/orchestrator 和 packages/open-code。

Orchestrator（编排器）： 负责任务的生命周期管理。它将用户的一个模糊需求（如"帮我分析这个文件夹里的所有 CSV 并绘图"）拆解为一系列原子任务。它维护着一个复杂的状态机，处理重试、分支选择和错误恢复。
OpenCode（执行逻辑）： 这部分代码负责将 LLM 生成的意图转化为可执行的指令。它支持多模型驱动（OpenAI, Anthropic 等），并确保指令符合预设的规范。

如果没有 Skill（技能），Agent 只是一个空有理论的演说家。

为了证明 OpenWork "不止于 UI"，我们可以从源码中发现以下亮点：

在 openwork-server 中，你会发现大量关于 Server-Sent Events (SSE) 的处理。这确保了 Agent 在进行长耗时任务（如搜索网页）时，UI 能够以流式的方式反馈"我正在阅读某某网页..."，这种深度同步是普通包装器（Wrapper）难以企及的。

OpenWork 正积极适配 Anthropic 提出的 Model Context Protocol (MCP)。这意味着它正在从一个单一的工具，转型为一个能够接入全球开发者贡献的"技能池"的标准平台。

深入 packages/core，你会看到对 Prompt Engineering 的极致优化。它不只是简单地把 Prompt 发送出去，而是通过严密的 TypeScript 类型定义，强制约束模型输出 JSON 格式的指令，从而降低了 AI "幻觉"导致的执行失败。

OpenWork 的真正野心，是建立一套 AI 与操作系统交互的"标准语言"。

UI 只是我们观察这台机器运行的窗口，而隐藏在代码库深处的编排逻辑、安全模型和插件协议，才是支撑起未来"数字化员工"的核心基石。对于开发者而言，阅读 OpenWork 的源码，不仅是在学习如何写一个 Agent 客户端，更是在学习如何构建一个安全、可控、高性能的 AI 协作系统。