抛弃昂贵MCP，拥抱技能+CLI，AI Agent架构的成本革命与性能突围

在AI Agent快速走向生产落地的今天，如何在保证智能执行能力的前提下，控制成本、提升稳定性、优化执行效率，已经成为每一个架构师和开发者必须面对的核心问题。近期，GitHub官方Copilot所采用的MCP服务器架构，在实际应用中暴露出惊人的令牌消耗与性能短板，而与之形成鲜明对比的是，以CLI为执行载体、搭配技能架构做渐进式披露的方案，不仅成本能降低20倍以上，可靠性与任务通过率更是实现了全面反超。这并非简单的工具选型偏好，而是基于令牌经济学、注意力机制研究与真实业务基准测试得出的必然结论。当Agent从实验室走向规模化商用，每一万次会话、每一轮工具调用、每一个令牌的消耗，都直接关系到产品的盈利能力与用户体验，传统MCP密集型架构的先天缺陷，正在被越来越多的生产实践放大，而技能+CLI的组合，正在成为新一代Agent架构的最优解。

一、MCP架构的隐形陷阱：令牌税、超时与性能崩塌

MCP，即工具调用服务器架构，一度被视为AI Agent连接外部能力的标准方案。以GitHub Copilot的MCP服务器为例，其对外暴露了43个工具接口，当Agent发起连接时，还未开始读取任何一行代码、执行任何一项任务，这些工具的完整JSON模式就会被强行注入上下文窗口，单次注入的令牌量高达55000个。这意味着，模型还没进入真正的推理环节，就已经产生了巨额的成本开销，这就是行业内越来越受重视的MCP税。

以Claude Sonnet 4的定价标准计算，每百万输入令牌收费3美元，仅一次会话中工具定义带来的令牌消耗，就需要支付0.165美元。看似单次成本微不足道，但放到规模化生产场景中，后果不堪设想。如果每天运行10000个自动化Agent会话，仅工具定义这一项，每天就要烧掉1650美元，一个月的成本接近5万美元，这还不包含后续任务执行、代码读取、结果返回产生的额外令牌消耗。对于需要高频次、大规模运行Agent的企业来说，MCP架构带来的成本压力，已经足以吞噬大部分业务利润。

更致命的是，MCP架构的成本浪费并非孤例，而是系统性问题。Scalekit团队针对相同任务、相同模型，开展了75组基准测试，对比CLI、CLI+技能与MCP三种架构的表现。在最简单的查询任务，识别仓库所用编程语言中，MCP架构的令牌消耗量是CLI方案的32倍。原因在于，MCP服务器会一股脑将所有工具模式全部推送，即便Agent只需要调用一个工具，也不得不加载webhook管理、gist创建、PR审查配置等完全无关的接口定义。这些冗余信息不仅徒增成本，还会严重干扰模型的注意力，导致任务失败率飙升。测试数据显示，MCP架构在该简单任务中的失败率达到28%，而失败的主要原因，正是与远程MCP服务器之间的TCP连接超时。

MCP架构的问题远不止金钱成本，更在于认知成本与性能退化。Anthropic官方工程团队在研究中明确指出，直接调用MCP工具会强制所有中间结果流经模型上下文。一场时长2小时的销售会议相关的Agent任务，可能会因此多处理50000个令牌。当团队将方案从直接MCP调用切换为通过文件系统按需发现工具的代码执行模式后，令牌消耗从150000骤降至2000，节省比例高达98.7%。这充分说明，MCP架构对上下文的滥用，本质上是对模型推理能力的巨大浪费。

近年来，人工智能领域的多项权威研究，进一步印证了长上下文对模型性能的负面影响。Chroma Research开展的上下文腐坏研究，针对18款主流大模型进行测试，结果显示，所有模型的性能都会随着输入长度的增加持续下降，即便是简单任务也无法幸免。在更贴近现实的场景中，当关键信息与无关内容相似度较高时，性能退化速度会大幅加快。研究还发现一个反直觉的现象，模型在随机打乱的文本上表现，甚至优于逻辑排序的内容，这说明Transformer的注意力机制，远没有人们想象中高效可靠。

斯坦福大学发布的中间迷失论文，则揭示了更核心的规律，大模型的信息回忆能力呈现典型的U型曲线，对于上下文开头和结尾的信息，模型能够精准 recall，但位于上下文中间位置的信息，准确率会下降超过30%。Anthropic在上下文工程指南中也强调，大模型和人类一样拥有有限的工作记忆，也就是注意力预算，每一个新增令牌都会消耗这份预算，一旦预算耗尽，模型的推理能力就会急剧下降。

Transformer架构的特性决定了，模型会为n个令牌创建n²的成对关系，随着上下文长度增长，模型捕捉这些关联的能力会持续减弱。同时，模型训练数据中短序列占比极高，针对长距离依赖的专用参数本就不足，即便通过位置编码插值实现了长上下文支持，也无法解决令牌位置理解退化的问题。而MCP架构注入的大量工具模式，恰好会落在上下文中间区域，这是模型注意力最薄弱的位置，直接导致Agent频繁陷入循环，重复无效操作直至达到步骤上限，忘记前期设定的约束条件，错误识别已经变更的系统状态。

在多轮Agent循环中，MCP架构的缺陷会被无限放大。史蒂文斯理工学院的研究表明，不受约束的Reflexion循环机制，运行10个周期的令牌消耗，可能是单次线性传递的50倍，单个任务的成本甚至会达到5至8美元。每一轮会话都会携带完整的历史信息与MCP工具模式，浪费呈指数级增长，最终让Agent架构在生产环境中失去实用价值。

二、技能架构：渐进式披露，重塑Agent的信息获取方式

面对MCP架构的种种弊端，技能架构应运而生，这是一套遵循渐进式披露理念的三级信息加载系统，目前已被Anthropic Agent技能规范正式定义，并广泛应用于Claude Code、OpenAI Codex、Cursor、Gemini CLI等主流开发工具中。其核心逻辑非常朴素，不要在一开始就把所有信息塞给Agent，而是先提供目录，让Agent按需加载所需内容，从根源上减少无效令牌消耗，保留模型的注意力预算用于核心推理。

技能架构分为三个清晰的层级，每一层都精准控制令牌消耗，实现成本与能力的平衡。第一层是元数据层，这是唯一需要始终加载的内容，仅包含技能名称与单行描述，单个技能的令牌消耗仅10至30个。这一层的作用是让Agent知道有哪些能力可用，建立基础的能力认知，不会产生过多开销。即便在200k的大上下文窗口中，一次性加载全部技能元数据，占用比例也不超过10%，而实际使用中，技能的令牌消耗通常低于整体上下文的1%。

第二层是完整技能文档层，以SKILL.md文件为载体，包含完整的执行指令、工作流程与约束条件，单个技能的令牌消耗在200至2000之间。这一层只有在Agent确定要使用对应技能时才会加载，让模型掌握具体的执行方法，避免无关信息干扰。第三层是参考文档层，涵盖API详细规格、深度技术文档等内容，令牌消耗在2000至20000之间，仅在处理复杂边缘场景时按需调用，用于解决非常规问题。

这种三级架构与MCP的全量注入形成天壤之别。MCP是不管需不需要，先把所有工具塞给Agent，而技能架构是只在需要时，才提供对应的信息，静止状态下仅保留极少的元数据，极大减轻了模型的认知负担。很多人会产生误解，认为技能是用来替代传统工具的，实则不然，技能与工具并非替代关系，而是协同关系。技能不提供具体的执行能力，它的核心价值是教会Agent，在合适的场景下，用正确的方式调用工具。

举个简单的例子，Jira的MCP服务器只是暴露了创建工单、更新状态等函数接口，而Jira技能会结合业务场景赋予Agent场景化认知，比如当前处于金融部门，项目空间前缀为FIN，创建工单默认优先级为高等。这种领域化的约束与指引，能让Agent的执行更贴合业务需求，避免无意义的工具调用，大幅提升任务通过率。

行业首个针对技能增强的严格基准测试SkillsBench，通过7308条执行轨迹，在Claude Code、Gemini CLI、Codex CLI等模型上验证了技能架构的价值。测试得出一个关键结论，技能数量并非越多越好，每任务搭配2至3个专注化技能，是性能最优的设计方案。同时，技能的复杂度直接影响效果，详细、具体的技能能让任务通过率提升18.9个百分点，而宽泛、综合的大技能，反而会让性能下降2.9个百分点。这也为开发者提供了明确的设计指引，技能设计要聚焦细分场景，做到小而精，而非大而全。

三、CLI优先：Agent执行层的成本杀手与稳定基石

如果说技能架构解决了Agent的认知成本问题，那么CLI就是执行层的最优选择。在实现相同外部能力的前提下，CLI方案仅需200至500个令牌，相比MCP架构，成本降低10至32倍，搭配技能架构后，静止状态下的令牌消耗更是低至30至50个，性价比碾压MCP。同时，CLI工具具备100%的可靠性，不存在远程调用超时的问题，这是MCP架构永远无法比拟的优势。

以GitHub的issue创建功能为例，CLI方案仅需执行gh issue create --help，就能获取完整的用法说明，包含分配责任人、设置标题、添加标签等核心参数，整体令牌消耗约200个。Agent在训练过程中，已经学习过大量gh命令相关内容，无需额外科普基础用法，就能直接组合命令完成任务，单次交互的总令牌消耗不足500个。而MCP方案需要推送create_issue的完整JSON模式，外加42个永远不会用到的工具定义，冗余信息占据了绝大部分上下文。

CLI优先的Agent设计，包含四大核心模式，每一种都直击生产痛点。第一种是CLI组合优于MCP编排。当技能包装CLI工具时，Agent可以像人类开发者一样，自由组合Unix管道，链式执行命令，这种能力来自模型训练数据中数百万条CLI操作示例。比如查询失败的部署任务，Agent可以通过aws cloudwatch获取监控数据，通过jq过滤结果，通过sort排序，通过head截取前20条，一气呵成完成复杂查询。而MCP工具缺乏可组合性语法，Agent无法即兴编排工具链，每一个操作都需要独立的远程调用，效率极低。

第二种是轻量化技能文件优化执行效率。一个约800令牌的GitHub技能文档，就能让Agent的工具调用次数减少三分之一，延迟同步降低三分之一。这份文档不会重复基础命令，而是聚焦实用技巧，比如优先使用--json获取结构化输出，用jq过滤数据而非grep，通过gh api调用GraphQL接口等。Agent本身已经掌握gh基础用法，技能只是强化其最佳实践，用极低的令牌成本，换来执行效率的大幅提升。

第三种是代码执行优于直接工具调用。Anthropic主推的代码执行模式，能将数据处理完全移出模型上下文。以读取谷歌表格数据为例，MCP方案会将10000行数据全部注入上下文，而代码执行模式下，Agent编写代码调用工具，在上下文外完成数据过滤，仅将5行关键结果返回上下文。数据只有在Agent明确需要时，才会进入上下文窗口，彻底避免了无关数据对注意力的干扰。

第四种是文件系统作为上下文持久化存储。Agent可以将执行过程中的数据写入本地文件，后续步骤直接从文件读取，无需在上下文窗口中保留历史数据，实现零上下文成本的状态持久化。比如从Salesforce查询1000条销售线索，导出为CSV文件保存到工作空间，后续任务直接读取文件即可，既保持了状态连续性，又让上下文窗口始终保持简洁，文件系统成为Agent的低成本长期记忆。

四、选型决策框架：CLI+技能与MCP的适用场景与混合架构

通过全方位对比可以清晰发现，CLI+技能架构在成本、稳定性、执行效率上全面领先，但这并不意味着MCP架构毫无价值。在实际生产环境中，需要结合业务场景理性选型，明确两种架构的适用边界，甚至可以采用混合架构，兼顾成本与安全合规。

CLI+技能架构具备绝对优势的场景主要集中在五大领域。首先是开发者工具场景，Agent模拟人类开发者操作，CLI是最贴合开发者习惯的交互方式，技能可以进一步优化操作逻辑。其次是Agentic编码工作流，包括代码调试、重构、部署等环节，CLI工具生态成熟，执行速度快，无远程依赖。第三是高频本地数据处理，多轮循环的任务对令牌消耗与稳定性要求极高，CLI本地执行完美适配。第四是拥有成熟官方CLI的服务，比如AWS、GitHub、GCP、kubectl等，生态完善，命令标准化，Agent极易掌握。第五是大规模令牌敏感的生产环境，每日会话量超过10000次，成本控制成为核心诉求，CLI+技能能节省巨额开支。

而MCP架构依旧具备不可替代性的场景，主要集中在企业级与合规场景。一是多租户SaaS平台，Agent需要代表不同客户执行操作，MCP的集中式管理更便捷。二是需要严格企业认证的场景，比如逐用户OAuth鉴权、RBAC权限控制、全链路操作审计，MCP能更好地满足管控需求。三是没有提供CLI的SaaS服务，只能通过API与MCP对接。四是强合规要求的业务，需要对每一次Agent操作生成结构化、可查询的审计记录，MCP的接口调用日志更易追溯。

最优的生产方案并非二选一，而是构建以技能为顶层的混合架构。整个架构分为三层，最上层是技能层，静止状态仅消耗30至50令牌，负责定义执行目标与领域上下文，实现渐进式披露。中间层是执行传输层，本地工具、AWS、GitHub、kubectl等走CLI通道，需要OAuth鉴权、SaaS对接的场景走MCP通道。最下层是文件系统与状态存储，将上下文无关的持久化数据移出模型窗口。

在这种架构下，技能层作为智能中枢，根据任务类型自动路由执行方式，本地操作走CLI，外部受控访问走MCP，Agent无需关心底层执行载体，只需要专注于任务推理。这种设计既保留了CLI+技能的成本优势与性能表现，又兼顾了MCP在安全、合规、多租户场景下的价值，实现了成本、性能、安全性的平衡。

五、结语：Agent架构的本质，是物理规律与工程实践的结合

很多人将MCP与CLI+技能的选型，视为技术偏好的争论，但本质上，这是一场遵循物理规律与令牌经济学的必然选择。大模型的注意力预算有限，上下文长度与推理性能成反比，令牌消耗直接对应经济成本，这些都是无法通过优化算法彻底改变的底层约束。MCP架构违背了这些基本规律，试图用全量信息注入的方式赋予Agent能力，最终陷入成本高、稳定性差、性能退化的困境。

而技能+CLI架构，尊重模型的认知局限，用渐进式披露节约注意力预算，用本地CLI降低令牌消耗与网络依赖，用轻量化技能提升任务执行精度，每一项设计都贴合大模型的架构特性与生产环境的实际需求。对于正在构建生产级Agent的开发者来说，这套架构能直接降低运营成本，对于评估Agent编码工具的团队来说，能帮助建立更清晰的选型框架，对于设计Agent架构的技术人员来说，将彻底改变对工具界面的认知。

随着AI Agent越来越深入业务核心，规模化、低成本、高可靠将成为核心竞争力。抛弃昂贵且低效的MCP密集型架构，转向技能+CLI的轻量化方案，不是短期的优化技巧，而是长期的架构升级。在AI技术快速迭代的今天，真正优秀的架构，从来不是堆砌功能与接口，而是用最小的代价，实现最优的效果，技能+CLI，正是AI Agent时代的正确答案。