为何MCP采用受阻(及如何解决)

一、引言

如果你今天作为开发者、IT 管理者或创业公司创始人正在构建 AI 智能体,你很可能经历过这个故事的某个版本:

在一个下午里,你把一个 MCP 服务器接入 Claude、ChatGPT,或者你们内部的智能体系统。

突然之间,这个智能体可以读取内部文档、调用你的 API、创建工单、查询数据库。

每个人都很兴奋......

然后有人说:"我们把它指向 staging,甚至 production 吧。"

刹车瞬间踩死。

安全团队想要一次审查。

合规团队想要一条审计链路。

平台团队询问谁将运行所有这些 MCP 服务器。

突然之间,这个优雅的协议开始看起来像一长串风险和运维杂务。

这篇文章讨论的正是那个差距:

为什么 MCP 容易做演示,却难以在生产环境运行

什么是 "MCP Gateway / 控制平面" 模式

像 IBM 的 ContextForge 和 Peta 这样的解决方案如何实现这种模式------并且具有非常不同的权衡

一条从"酷炫演示"走向"可以在安全审查中辩护的生产系统"的实践路线图

目标不是夸大任何单一产品,而是在现实的生产环境背景下思考 MCP------尤其是当你的智能体将触达真实系统和真实数据时。


二、为什么每个人一开始都喜欢 MCP

让我们从吸引力开始。

Model Context Protocol(MCP)是一个开放标准,它允许 AI 应用(MCP 客户端)以一致的方式连接外部系统(MCP 服务器)。这些系统可能是:

内部 REST 或 gRPC API

数据库和数据仓库

知识库和文件系统

DevOps 工具、CRM、工单系统等等

你可以把 MCP 看作一种"AI 工具的 USB"。

构建一个 MCP 服务器一次,任何兼容 MCP 的客户端都可以发现并调用其工具。

你不必为每个模型、智能体或 UI 编写定制的集成代码,而是通过 MCP 暴露标准工具。

不断增长的预构建 MCP 服务器生态意味着,你可以用相对较少的代码拼接出令人惊讶的强大智能体。

对于 AI 智能体开发者而言,这是一个梦想:你获得了一种统一的方式,将工具连接到智能体,并让模型处理编排。

对于 IT 管理者和创业公司领导来说,这看起来是一条通往"真正能做事的 AI"的快速路径,而不仅仅是回答问题。

那么问题出在哪里?


三、在生产环境中真正阻碍 MCP 的因素

一旦你试图超越原型阶段,三类阻碍会反复出现:

安全风险

运维复杂性

有限的控制与治理

这些几乎完全对应安全团队、基础设施团队和业务利益相关者真正关心的内容。


(一)安全风险:密钥、爆炸半径与合规缺口

乍一看,"智能体调用 MCP 工具"似乎是无害的。

在底层,却存在几个严重的安全问题。

① 凭据暴露在 AI 上下文中

在简单的 MCP 设置中,常见情况包括:

API 密钥存放在 .env 文件、本地配置或 MCP 服务器 JSON 中。

密钥被粘贴进示例或文档中以"先跑起来"。

工具调用将授权头、URL 或原始响应回显到日志中,有时甚至进入 LLM 上下文。

这意味着凭据可能最终出现在:

LLM 输入和输出

智能体日志和追踪

共享配置仓库

换句话说:凭据暴露在 AI 上下文中------这正是安全团队不希望看到的。

② 没有用于合规的审计链路

考虑一个智能体调用类似这样的操作:

delete_user_account(user_id=123, force=true)

如果稍后被审计,你是否可以证明:

谁发起了该操作(哪个用户,哪个智能体)?

在什么策略或角色下运行?

是否有人类批准?

它触达的是 production 还是较低环境?

默认情况下,MCP 并不提供统一、不可篡改的审计链路。

你可能拥有分散的证据,存在于 MCP 服务器日志、客户端应用日志和 LLM 聊天记录中。

但你无法轻松向 SOC 2 或 HIPAA 审计员提供一条干净的端到端叙述。

这就是"没有用于合规的审计链路"问题。

③ 手动凭据轮换

在许多团队中,轮换一个密钥的过程如下:

找出每一个使用该密钥的 MCP 服务器或配置。

手动更新环境变量或配置文件。

重新部署或重启服务。

希望没有人在某个被遗忘的仓库中提交过该密钥。

这不是自动化的生命周期管理。

它容易出错、缓慢,而且通常不符合现代标准,例如:

高频轮换

即时解密

避免客户端持有长期密钥

因此,从安全和合规角度来看,原生 MCP 存在三个明显问题:

凭据出现在不该出现的地方

没有权威审计链路

手动且脆弱的密钥轮换机制


(二)运维复杂性:一动物园的小服务器

即使安全问题得到解决,平台和基础设施团队也会提出自己的担忧。

① 手动服务器部署

每新增一个 MCP 服务器,就意味着另一个需要:

打包

部署(Kubernetes、虚拟机、容器、无服务器等)

配置(密钥、网络、可观测性)

而且几乎总是需要多个环境:

开发

预发布

生产

因此,添加一个集成可能意味着多个 MCP 服务器部署、多套配置和多套监控告警。

这就是"手动服务器部署"问题------当你希望拥有几十个工具时,它很难扩展。

② 24/7 空转成本

大多数 MCP 工具是间歇使用的。

然而,如果你将每个 MCP 服务器作为长期运行的服务:

即使空闲,它也消耗计算和内存。

你仍然为可观测性、网络和平台开销付费。

当你拥有大量服务器时,"小实验"就变成了真实的基础设施成本。

很多 MCP 服务器大部分时间什么也不做,却仍然在消耗资源。

这就是"24/7 空转成本"问题。

③ 到处都是自定义 REST 集成

MCP 生态在增长,但现实是:

许多内部服务仍然只是普通 REST 或 gRPC。

许多外部 SaaS 产品并非 MCP 感知。

因此你最终要么为每个 API 编写自定义 MCP 包装器,要么维护一条一次性的非 MCP 集成路径。

这本质上是"每个端点都要自定义 REST 集成"的问题------你在重复实现本应标准化的基础设施。


(三)控制与治理不足:二元权限与缺乏护栏

即使安全和运维问题得到缓解,领导层仍然担心爆炸半径------如果智能体执行了危险操作怎么办?

① 二元权限

在许多设置中,访问是"全有或全无":

如果客户端可以连接到 MCP 服务器,它通常可以看到所有工具。

如果用户被启用某个集成,他们就拥有该集成提供的全部能力。

但真实世界的策略更细致:

初级工程师的智能体可能只能读取数据。

高级 SRE 可能拥有部署权限,但没有计费权限。

客户支持机器人可能可以发放小额退款,但不能发放大额退款。

没有细粒度、工具级策略,你就只能使用不符合组织风险模型的二元权限。

② 没有审批工作流

某些操作不应完全自动化:

回滚生产部署

轮换 root 凭据

删除大量数据

发起大额金融交易

理想情况下,智能体应该提出操作、提供上下文和理由,然后等待人类批准或拒绝。

但 MCP 本身并未定义审批机制。

如果工具调用被允许,它就会执行。

这就是"没有审批工作流"问题。

③ 没有环境隔离

最后,是边界问题:

开发环境的智能体误触生产工具。

内部工具跨环境或跨团队泄露。

共享 MCP 服务器却没有清晰隔离。

如果没有环境感知的策略和路由,很容易出现配置错误导致真实损害。

这就是"没有环境隔离"问题。

四、MCP Gateway 模式:缺失的一层

为了使 MCP 在生产环境中可行,许多团队正在收敛到类似的架构:MCP Gateway 或 MCP 控制平面。

你可以把它理解为:

一个具备策略感知能力的智能路由层,位于 AI 客户端与 MCP 服务器(或普通 API)之间,自动执行安全、治理和生命周期管理。

不是:

Agent → MCP 服务器 → 系统

而是:

Agent → MCP Gateway → MCP 服务器 / REST / 其他工具

一个好的 MCP Gateway 会直接解决我们前面讨论的三类问题。


(一)规模化的零信任安全

在安全层面,MCP Gateway 允许你围绕工具建立零信任模型。

零密钥暴露

外部 API 密钥不会离开密钥库。

它们不会存储在客户端配置中,不会硬编码在 MCP 服务器中,也不会暴露在 LLM 上下文中。

网关签发服务令牌取代原始 API 密钥。

客户端使用与策略绑定的短期令牌进行身份验证,而不是使用长期共享密钥。

仅在内存中解密。

密钥仅在需要时在内存中解密,用于调用下游系统,然后立即清除。

自动轮换。

你可以在密钥库中轮换密钥,而无需重新部署或重新配置每个客户端。

这将"凭据出现在 AI 上下文 + 手动轮换"的混乱局面转变为集中管理、可审计的流程。


(二)细粒度权限控制

在零信任之上,网关允许你定义细粒度、工具级权限。

按用户 / 按智能体的策略

人类用户可以做的事情可能与自治智能体不同。

按工具 / 按操作的控制

例如:read_reports 广泛允许;delete_user 仅允许在 staging 或在审批之后。

环境隔离

为开发、预发布和生产完全分离策略、凭据,有时甚至是独立网关实例。

上下文感知规则

决策可以考虑时间、位置和数据敏感性,例如:"在非办公时间禁止来自不可信 IP 的生产删除操作。"

通过这些能力,你从二元开关权限转向符合实际风险承受能力的权限模型。


(三)快速扩展与成本控制

在运维层面,网关可以处理 MCP 服务器的自动生命周期管理。

按需服务器池

MCP 服务器仅在需要时启动,空闲时关闭,从而减少 24/7 空转成本。

几分钟内转换任意 API

网关可以将 REST 或 gRPC 服务包装为"虚拟 MCP 服务器",无需为每个服务手写包装器。

即时扩展新工具

新 API 可以在网关中注册,并立即进入 MCP 生态,而无需大规模重新部署。

采用这种模式的团队通常可以显著降低成本。

与"所有 MCP 服务器永久运行"相比,追求 70% 的基础设施成本下降并不罕见。


(四)完整的可观测性

一个好的 MCP Gateway 提供端到端可视性。

每个 MCP 调用都会记录谁、什么、何时、何地以及结果。

日志具备防篡改能力,并可导出到 SIEM 系统,以满足 SOC 2、HIPAA 等要求。

可以按团队或项目进行成本分摊。

可以针对异常模式发出警报,例如流量激增、异常工具调用或异常访问时间。

现在,你拥有一个集中位置,安全、合规和运维团队可以查看智能体真正做了什么。

这就是 MCP Gateway 模式的概念基础。

不同项目以不同侧重点实现这一模式。

下面看两个具体例子:IBM 的 ContextForge 和 Peta。


五、ContextForge:强大、企业级、但复杂

IBM 的 ContextForge MCP Gateway 是一个开源项目,旨在成为功能丰富的网关、代理和注册中心。

从高层看,它为希望将 MCP 作为基础设施一部分来管理的组织设计。

它能做什么

ContextForge 位于:

原生 MCP 服务器

REST 和 gRPC API

智能体到智能体(A2A)服务

之前,并通过统一网关向 AI 客户端暴露。

关键能力包括:

多种传输协议

支持 stdio、HTTP/JSON-RPC、WebSocket、流式 HTTP 等。

虚拟 MCP 服务器

可将非 MCP 服务包装为虚拟 MCP 服务器,通常从 OpenAPI 等定义推导 schema。

注册与发现

作为中央工具注册中心,支持跨网关和集群的发现与联邦。

管理界面与可观测性

提供管理 UI,并与 OpenTelemetry 等工具集成。

它将 MCP Gateway 模式实现为一个通用、协议感知的网关和注册系统。

权衡:能力与复杂性

强大也意味着复杂。

它引入:

大量配置面(认证、联邦、传输、路由规则等)

多组件架构

类似运行另一个大型 API 网关的运维复杂度

如果你已经拥有成熟平台团队和 Kubernetes 基础设施,它非常合适。

对于小团队或早期创业公司,它可能显得沉重。


六、Peta:零信任 MCP 控制平面与人工审批

与 ContextForge 的通用网关思路不同,Peta 更加聚焦。

它关注:

零信任安全

细粒度环境策略

人工审批

高效运行 MCP 服务器

它包含三个组件:

Peta Core --- 零信任网关与运行时

Peta Console --- 控制平面与策略引擎

Peta Desk --- 审批客户端


Peta Core

Peta Core:

终止 MCP 客户端连接

验证身份与策略

注入凭据并路由调用

按需编排 MCP 服务器生命周期

特点包括:

服务令牌替代原始密钥

密钥存储在加密 vault 中

仅在内存中短暂解密

按需启动 MCP 运行时

这直接解决安全与运维复杂性问题。


Peta Console

Peta Console 允许:

建模环境

定义 RBAC / ABAC 策略

管理服务令牌

监控使用与异常

它成为 MCP 治理的"单一控制面板"。


Peta Desk

当智能体提出高风险操作时:

请求到达 Core

被判定需要审批

发送到 Desk

人类查看上下文

批准、修改或拒绝

全过程记录

这种人类参与模型允许智能体拥有强大能力,同时保持最终控制权。


安全与合规姿态

Peta 架构对齐:

零信任安全

合规级审计日志

环境隔离

它试图回答:"生产级 MCP 安全是什么样?"


权衡

Peta 是较年轻项目。

生态较小。

但专注于 MCP 生产治理问题。

它减少拼装通用组件的需求。

更快达到价值。


七、如何选择:ContextForge、Peta 或自建

如果你是开发者:

想停止硬编码密钥?

想要工具注册中心?

想避免自己实现审批和日志?

ContextForge 提供强大灵活性。

Peta 提供更聚焦的治理能力。

如果你是 IT / 安全负责人:

关注密钥暴露?

关注审计?

关注环境隔离?

网关是必需层。

如果你是创业公司创始人:

关注速度与风险。

选择集中密钥与日志的方案。

逐步引入审批机制。


八、从演示到生产的路线图

阶段 1:盘点与风险评估

列出所有 MCP 工具。

识别数据类型与环境。

识别密钥存储位置。

阶段 2:将敏感工具置于网关之后

集中密钥。

签发短期令牌。

阶段 3:添加细粒度策略与环境隔离

区分 dev / staging / prod。

限制破坏性操作。

阶段 4:引入人工审批

为高风险操作配置审批。

阶段 5:优化成本

采用按需运行。

阶段 6:在治理下扩展 MCP


九、结语

MCP 提供强大抽象:

以标准方式将智能体连接到工具。

但 MCP 本身不解决:

密钥管理

合规审计

成本生命周期管理

人工控制

这正是组织卡在"原型"与"生产"之间的原因。

MCP Gateway / 控制平面模式:

集中密钥

统一访问控制

增加策略与审批

智能管理生命周期

ContextForge 提供强大企业级实现。

Peta 提供聚焦零信任与审批的实现。

关键结论:

不要只根据演示难易度评估 MCP。

要评估 MCP 加上治理层之后的整体能力。

当你这样做时,

智能体获得受控生产访问不再是风险,

而是可扩展能力。


参考资料

Anthropic --- Model Context Protocol 概览
https://www.anthropic.com

Anthropic --- MCP GitHub 组织与示例服务器
https://github.com/modelcontextprotocol

IBM --- ContextForge MCP Gateway
https://github.com/IBM/context-forge

Peta --- 零信任 MCP 控制平面
https://peta.io

一旦做到这一点,让智能体获得真实、受治理的生产访问就不再是你试图为其辩护的风险------而是你可以自信扩展的能力

相关推荐
云器科技2 小时前
云器Lakehouse新版本特性解读:MCP Server —— AI 数据工程师的深度解析与实战指南
大数据·人工智能·自然语言处理·数据平台·湖仓平台
Amy187021118232 小时前
新能源 + 新农村:微电网如何成为乡村振兴的“电力引擎”?
人工智能
啊阿狸不会拉杆2 小时前
《计算机视觉:模型、学习和推理》第 10 章-图模型
人工智能·python·学习·机器学习·计算机视觉·图模型
BBTSOH159015160442 小时前
VR每日热点简报2026.2.24
人工智能·meta·vr·虚拟现实·热点
TSINGSEE2 小时前
EasyGBS视频质量诊断:告别人工盯屏,AI智能巡检如何“主动”发现11种画质异常?
人工智能·音视频·实时音视频·视频质量诊断·画面冻结·画面抖动·偏色检测
EAIReport2 小时前
深度解析豆包接入的Seedance 2.0:字节原生AI视频生成模型,重构技术创作新范式
人工智能·重构·音视频
墨染天姬2 小时前
【AI】deepseek 分析问题原理
人工智能
你的论文学长2 小时前
从 Base Code 生成到 AST 语义重构:详解学术长文本的自动化质控方案
运维·人工智能·重构·自动化·论文