为何MCP采用受阻（及如何解决）

一、引言

如果你今天作为开发者、IT 管理者或创业公司创始人正在构建 AI 智能体，你很可能经历过这个故事的某个版本：

在一个下午里，你把一个 MCP 服务器接入 Claude、ChatGPT，或者你们内部的智能体系统。

突然之间，这个智能体可以读取内部文档、调用你的 API、创建工单、查询数据库。

每个人都很兴奋......

然后有人说："我们把它指向 staging，甚至 production 吧。"

刹车瞬间踩死。

安全团队想要一次审查。

合规团队想要一条审计链路。

平台团队询问谁将运行所有这些 MCP 服务器。

突然之间，这个优雅的协议开始看起来像一长串风险和运维杂务。

这篇文章讨论的正是那个差距：

为什么 MCP 容易做演示，却难以在生产环境运行

什么是 "MCP Gateway / 控制平面" 模式

像 IBM 的 ContextForge 和 Peta 这样的解决方案如何实现这种模式------并且具有非常不同的权衡

一条从"酷炫演示"走向"可以在安全审查中辩护的生产系统"的实践路线图

目标不是夸大任何单一产品，而是在现实的生产环境背景下思考 MCP------尤其是当你的智能体将触达真实系统和真实数据时。

二、为什么每个人一开始都喜欢 MCP

让我们从吸引力开始。

Model Context Protocol（MCP）是一个开放标准，它允许 AI 应用（MCP 客户端）以一致的方式连接外部系统（MCP 服务器）。这些系统可能是：

内部 REST 或 gRPC API

数据库和数据仓库

知识库和文件系统

DevOps 工具、CRM、工单系统等等

你可以把 MCP 看作一种"AI 工具的 USB"。

构建一个 MCP 服务器一次，任何兼容 MCP 的客户端都可以发现并调用其工具。

你不必为每个模型、智能体或 UI 编写定制的集成代码，而是通过 MCP 暴露标准工具。

不断增长的预构建 MCP 服务器生态意味着，你可以用相对较少的代码拼接出令人惊讶的强大智能体。

对于 AI 智能体开发者而言，这是一个梦想：你获得了一种统一的方式，将工具连接到智能体，并让模型处理编排。

对于 IT 管理者和创业公司领导来说，这看起来是一条通往"真正能做事的 AI"的快速路径，而不仅仅是回答问题。

那么问题出在哪里？

三、在生产环境中真正阻碍 MCP 的因素

一旦你试图超越原型阶段，三类阻碍会反复出现：

安全风险

运维复杂性

有限的控制与治理

这些几乎完全对应安全团队、基础设施团队和业务利益相关者真正关心的内容。

（一）安全风险：密钥、爆炸半径与合规缺口

乍一看，"智能体调用 MCP 工具"似乎是无害的。

在底层，却存在几个严重的安全问题。

① 凭据暴露在 AI 上下文中

在简单的 MCP 设置中，常见情况包括：

API 密钥存放在 .env 文件、本地配置或 MCP 服务器 JSON 中。

密钥被粘贴进示例或文档中以"先跑起来"。

工具调用将授权头、URL 或原始响应回显到日志中，有时甚至进入 LLM 上下文。

这意味着凭据可能最终出现在：

LLM 输入和输出

智能体日志和追踪

共享配置仓库

换句话说：凭据暴露在 AI 上下文中------这正是安全团队不希望看到的。

② 没有用于合规的审计链路

考虑一个智能体调用类似这样的操作：

delete_user_account(user_id=123, force=true)

如果稍后被审计，你是否可以证明：

谁发起了该操作（哪个用户，哪个智能体）？

在什么策略或角色下运行？

是否有人类批准？

它触达的是 production 还是较低环境？

默认情况下，MCP 并不提供统一、不可篡改的审计链路。

你可能拥有分散的证据，存在于 MCP 服务器日志、客户端应用日志和 LLM 聊天记录中。

但你无法轻松向 SOC 2 或 HIPAA 审计员提供一条干净的端到端叙述。

这就是"没有用于合规的审计链路"问题。

③ 手动凭据轮换

在许多团队中，轮换一个密钥的过程如下：

找出每一个使用该密钥的 MCP 服务器或配置。

手动更新环境变量或配置文件。

重新部署或重启服务。

希望没有人在某个被遗忘的仓库中提交过该密钥。

这不是自动化的生命周期管理。

它容易出错、缓慢，而且通常不符合现代标准，例如：

高频轮换

即时解密

避免客户端持有长期密钥

因此，从安全和合规角度来看，原生 MCP 存在三个明显问题：

凭据出现在不该出现的地方

没有权威审计链路

手动且脆弱的密钥轮换机制

（二）运维复杂性：一动物园的小服务器

即使安全问题得到解决，平台和基础设施团队也会提出自己的担忧。

① 手动服务器部署

每新增一个 MCP 服务器，就意味着另一个需要：

打包

部署（Kubernetes、虚拟机、容器、无服务器等）

配置（密钥、网络、可观测性）

而且几乎总是需要多个环境：

开发

预发布

生产

因此，添加一个集成可能意味着多个 MCP 服务器部署、多套配置和多套监控告警。

这就是"手动服务器部署"问题------当你希望拥有几十个工具时，它很难扩展。

② 24/7 空转成本

大多数 MCP 工具是间歇使用的。

然而，如果你将每个 MCP 服务器作为长期运行的服务：

即使空闲，它也消耗计算和内存。

你仍然为可观测性、网络和平台开销付费。

当你拥有大量服务器时，"小实验"就变成了真实的基础设施成本。

很多 MCP 服务器大部分时间什么也不做，却仍然在消耗资源。

这就是"24/7 空转成本"问题。

③ 到处都是自定义 REST 集成

MCP 生态在增长，但现实是：

许多内部服务仍然只是普通 REST 或 gRPC。

许多外部 SaaS 产品并非 MCP 感知。

因此你最终要么为每个 API 编写自定义 MCP 包装器，要么维护一条一次性的非 MCP 集成路径。

这本质上是"每个端点都要自定义 REST 集成"的问题------你在重复实现本应标准化的基础设施。

（三）控制与治理不足：二元权限与缺乏护栏

即使安全和运维问题得到缓解，领导层仍然担心爆炸半径------如果智能体执行了危险操作怎么办？

① 二元权限

在许多设置中，访问是"全有或全无"：

如果客户端可以连接到 MCP 服务器，它通常可以看到所有工具。

如果用户被启用某个集成，他们就拥有该集成提供的全部能力。

但真实世界的策略更细致：

初级工程师的智能体可能只能读取数据。

高级 SRE 可能拥有部署权限，但没有计费权限。

客户支持机器人可能可以发放小额退款，但不能发放大额退款。

没有细粒度、工具级策略，你就只能使用不符合组织风险模型的二元权限。

② 没有审批工作流

某些操作不应完全自动化：

回滚生产部署

轮换 root 凭据

删除大量数据

发起大额金融交易

理想情况下，智能体应该提出操作、提供上下文和理由，然后等待人类批准或拒绝。

但 MCP 本身并未定义审批机制。

如果工具调用被允许，它就会执行。

这就是"没有审批工作流"问题。

③ 没有环境隔离

最后，是边界问题：

开发环境的智能体误触生产工具。

内部工具跨环境或跨团队泄露。

共享 MCP 服务器却没有清晰隔离。

如果没有环境感知的策略和路由，很容易出现配置错误导致真实损害。

这就是"没有环境隔离"问题。

四、MCP Gateway 模式：缺失的一层

为了使 MCP 在生产环境中可行，许多团队正在收敛到类似的架构：MCP Gateway 或 MCP 控制平面。

你可以把它理解为：

一个具备策略感知能力的智能路由层，位于 AI 客户端与 MCP 服务器（或普通 API）之间，自动执行安全、治理和生命周期管理。

不是：

Agent → MCP 服务器 → 系统

而是：

Agent → MCP Gateway → MCP 服务器 / REST / 其他工具

一个好的 MCP Gateway 会直接解决我们前面讨论的三类问题。

（一）规模化的零信任安全

在安全层面，MCP Gateway 允许你围绕工具建立零信任模型。

零密钥暴露

外部 API 密钥不会离开密钥库。

它们不会存储在客户端配置中，不会硬编码在 MCP 服务器中，也不会暴露在 LLM 上下文中。

网关签发服务令牌取代原始 API 密钥。

客户端使用与策略绑定的短期令牌进行身份验证，而不是使用长期共享密钥。

仅在内存中解密。

密钥仅在需要时在内存中解密，用于调用下游系统，然后立即清除。

自动轮换。

你可以在密钥库中轮换密钥，而无需重新部署或重新配置每个客户端。

这将"凭据出现在 AI 上下文 + 手动轮换"的混乱局面转变为集中管理、可审计的流程。

（二）细粒度权限控制

在零信任之上，网关允许你定义细粒度、工具级权限。

按用户 / 按智能体的策略

人类用户可以做的事情可能与自治智能体不同。

按工具 / 按操作的控制

例如：read_reports 广泛允许；delete_user 仅允许在 staging 或在审批之后。

环境隔离

为开发、预发布和生产完全分离策略、凭据，有时甚至是独立网关实例。

上下文感知规则

决策可以考虑时间、位置和数据敏感性，例如："在非办公时间禁止来自不可信 IP 的生产删除操作。"

通过这些能力，你从二元开关权限转向符合实际风险承受能力的权限模型。

（三）快速扩展与成本控制

在运维层面，网关可以处理 MCP 服务器的自动生命周期管理。

按需服务器池

MCP 服务器仅在需要时启动，空闲时关闭，从而减少 24/7 空转成本。

几分钟内转换任意 API

网关可以将 REST 或 gRPC 服务包装为"虚拟 MCP 服务器"，无需为每个服务手写包装器。

即时扩展新工具

新 API 可以在网关中注册，并立即进入 MCP 生态，而无需大规模重新部署。

采用这种模式的团队通常可以显著降低成本。

与"所有 MCP 服务器永久运行"相比，追求 70% 的基础设施成本下降并不罕见。

（四）完整的可观测性

一个好的 MCP Gateway 提供端到端可视性。

每个 MCP 调用都会记录谁、什么、何时、何地以及结果。

日志具备防篡改能力，并可导出到 SIEM 系统，以满足 SOC 2、HIPAA 等要求。

可以按团队或项目进行成本分摊。

可以针对异常模式发出警报，例如流量激增、异常工具调用或异常访问时间。

现在，你拥有一个集中位置，安全、合规和运维团队可以查看智能体真正做了什么。

这就是 MCP Gateway 模式的概念基础。

不同项目以不同侧重点实现这一模式。

下面看两个具体例子：IBM 的 ContextForge 和 Peta。

五、ContextForge：强大、企业级、但复杂

IBM 的 ContextForge MCP Gateway 是一个开源项目，旨在成为功能丰富的网关、代理和注册中心。

从高层看，它为希望将 MCP 作为基础设施一部分来管理的组织设计。

它能做什么

ContextForge 位于：

原生 MCP 服务器

REST 和 gRPC API

智能体到智能体（A2A）服务

之前，并通过统一网关向 AI 客户端暴露。

关键能力包括：

多种传输协议

支持 stdio、HTTP/JSON-RPC、WebSocket、流式 HTTP 等。

虚拟 MCP 服务器

可将非 MCP 服务包装为虚拟 MCP 服务器，通常从 OpenAPI 等定义推导 schema。

注册与发现

作为中央工具注册中心，支持跨网关和集群的发现与联邦。

管理界面与可观测性

提供管理 UI，并与 OpenTelemetry 等工具集成。

它将 MCP Gateway 模式实现为一个通用、协议感知的网关和注册系统。

权衡：能力与复杂性

强大也意味着复杂。

它引入：

大量配置面（认证、联邦、传输、路由规则等）

多组件架构

类似运行另一个大型 API 网关的运维复杂度

如果你已经拥有成熟平台团队和 Kubernetes 基础设施，它非常合适。

对于小团队或早期创业公司，它可能显得沉重。

六、Peta：零信任 MCP 控制平面与人工审批

与 ContextForge 的通用网关思路不同，Peta 更加聚焦。

它关注：

零信任安全

细粒度环境策略

人工审批

高效运行 MCP 服务器

它包含三个组件：

Peta Core --- 零信任网关与运行时

Peta Console --- 控制平面与策略引擎

Peta Desk --- 审批客户端

Peta Core

Peta Core：

终止 MCP 客户端连接

验证身份与策略

注入凭据并路由调用

按需编排 MCP 服务器生命周期

特点包括：

服务令牌替代原始密钥

密钥存储在加密 vault 中

仅在内存中短暂解密

按需启动 MCP 运行时

这直接解决安全与运维复杂性问题。

Peta Console

Peta Console 允许：

建模环境

定义 RBAC / ABAC 策略

管理服务令牌

监控使用与异常

它成为 MCP 治理的"单一控制面板"。

Peta Desk

当智能体提出高风险操作时：

请求到达 Core

被判定需要审批

发送到 Desk

人类查看上下文

批准、修改或拒绝

全过程记录

这种人类参与模型允许智能体拥有强大能力，同时保持最终控制权。

安全与合规姿态

Peta 架构对齐：

零信任安全

合规级审计日志

环境隔离

它试图回答："生产级 MCP 安全是什么样？"

权衡

Peta 是较年轻项目。

生态较小。

但专注于 MCP 生产治理问题。

它减少拼装通用组件的需求。

更快达到价值。

七、如何选择：ContextForge、Peta 或自建

如果你是开发者：

想停止硬编码密钥？

想要工具注册中心？

想避免自己实现审批和日志？

ContextForge 提供强大灵活性。

Peta 提供更聚焦的治理能力。

如果你是 IT / 安全负责人：

关注密钥暴露？

关注审计？

关注环境隔离？

网关是必需层。

如果你是创业公司创始人：

关注速度与风险。

选择集中密钥与日志的方案。

逐步引入审批机制。

八、从演示到生产的路线图

阶段 1：盘点与风险评估

列出所有 MCP 工具。

识别数据类型与环境。

识别密钥存储位置。

阶段 2：将敏感工具置于网关之后

集中密钥。

签发短期令牌。

阶段 3：添加细粒度策略与环境隔离

区分 dev / staging / prod。

限制破坏性操作。

阶段 4：引入人工审批

为高风险操作配置审批。

阶段 5：优化成本

采用按需运行。

阶段 6：在治理下扩展 MCP

九、结语

MCP 提供强大抽象：

以标准方式将智能体连接到工具。

但 MCP 本身不解决：

密钥管理

合规审计

成本生命周期管理

人工控制

这正是组织卡在"原型"与"生产"之间的原因。

MCP Gateway / 控制平面模式：

集中密钥

统一访问控制

增加策略与审批

智能管理生命周期

ContextForge 提供强大企业级实现。

Peta 提供聚焦零信任与审批的实现。

关键结论：

不要只根据演示难易度评估 MCP。

要评估 MCP 加上治理层之后的整体能力。

当你这样做时，

智能体获得受控生产访问不再是风险，

而是可扩展能力。

参考资料

Anthropic --- Model Context Protocol 概览
https://www.anthropic.com

Anthropic --- MCP GitHub 组织与示例服务器
https://github.com/modelcontextprotocol

IBM --- ContextForge MCP Gateway
https://github.com/IBM/context-forge

Peta --- 零信任 MCP 控制平面
https://peta.io

一旦做到这一点，让智能体获得真实、受治理的生产访问就不再是你试图为其辩护的风险------而是你可以自信扩展的能力