
在AI Agent快速走向生产落地的今天,如何在保证智能执行能力的前提下,控制成本、提升稳定性、优化执行效率,已经成为每一个架构师和开发者必须面对的核心问题。近期,GitHub官方Copilot所采用的MCP服务器架构,在实际应用中暴露出惊人的令牌消耗与性能短板,而与之形成鲜明对比的是,以CLI为执行载体、搭配技能架构做渐进式披露的方案,不仅成本能降低20倍以上,可靠性与任务通过率更是实现了全面反超。这并非简单的工具选型偏好,而是基于令牌经济学、注意力机制研究与真实业务基准测试得出的必然结论。当Agent从实验室走向规模化商用,每一万次会话、每一轮工具调用、每一个令牌的消耗,都直接关系到产品的盈利能力与用户体验,传统MCP密集型架构的先天缺陷,正在被越来越多的生产实践放大,而技能+CLI的组合,正在成为新一代Agent架构的最优解。
一、MCP架构的隐形陷阱:令牌税、超时与性能崩塌
MCP,即工具调用服务器架构,一度被视为AI Agent连接外部能力的标准方案。以GitHub Copilot的MCP服务器为例,其对外暴露了43个工具接口,当Agent发起连接时,还未开始读取任何一行代码、执行任何一项任务,这些工具的完整JSON模式就会被强行注入上下文窗口,单次注入的令牌量高达55000个。这意味着,模型还没进入真正的推理环节,就已经产生了巨额的成本开销,这就是行业内越来越受重视的MCP税。
以Claude Sonnet 4的定价标准计算,每百万输入令牌收费3美元,仅一次会话中工具定义带来的令牌消耗,就需要支付0.165美元。看似单次成本微不足道,但放到规模化生产场景中,后果不堪设想。如果每天运行10000个自动化Agent会话,仅工具定义这一项,每天就要烧掉1650美元,一个月的成本接近5万美元,这还不包含后续任务执行、代码读取、结果返回产生的额外令牌消耗。对于需要高频次、大规模运行Agent的企业来说,MCP架构带来的成本压力,已经足以吞噬大部分业务利润。
更致命的是,MCP架构的成本浪费并非孤例,而是系统性问题。Scalekit团队针对相同任务、相同模型,开展了75组基准测试,对比CLI、CLI+技能与MCP三种架构的表现。在最简单的查询任务,识别仓库所用编程语言中,MCP架构的令牌消耗量是CLI方案的32倍。原因在于,MCP服务器会一股脑将所有工具模式全部推送,即便Agent只需要调用一个工具,也不得不加载webhook管理、gist创建、PR审查配置等完全无关的接口定义。这些冗余信息不仅徒增成本,还会严重干扰模型的注意力,导致任务失败率飙升。测试数据显示,MCP架构在该简单任务中的失败率达到28%,而失败的主要原因,正是与远程MCP服务器之间的TCP连接超时。
MCP架构的问题远不止金钱成本,更在于认知成本与性能退化。Anthropic官方工程团队在研究中明确指出,直接调用MCP工具会强制所有中间结果流经模型上下文。一场时长2小时的销售会议相关的Agent任务,可能会因此多处理50000个令牌。当团队将方案从直接MCP调用切换为通过文件系统按需发现工具的代码执行模式后,令牌消耗从150000骤降至2000,节省比例高达98.7%。这充分说明,MCP架构对上下文的滥用,本质上是对模型推理能力的巨大浪费。
近年来,人工智能领域的多项权威研究,进一步印证了长上下文对模型性能的负面影响。Chroma Research开展的上下文腐坏研究,针对18款主流大模型进行测试,结果显示,所有模型的性能都会随着输入长度的增加持续下降,即便是简单任务也无法幸免。在更贴近现实的场景中,当关键信息与无关内容相似度较高时,性能退化速度会大幅加快。研究还发现一个反直觉的现象,模型在随机打乱的文本上表现,甚至优于逻辑排序的内容,这说明Transformer的注意力机制,远没有人们想象中高效可靠。
斯坦福大学发布的中间迷失论文,则揭示了更核心的规律,大模型的信息回忆能力呈现典型的U型曲线,对于上下文开头和结尾的信息,模型能够精准 recall,但位于上下文中间位置的信息,准确率会下降超过30%。Anthropic在上下文工程指南中也强调,大模型和人类一样拥有有限的工作记忆,也就是注意力预算,每一个新增令牌都会消耗这份预算,一旦预算耗尽,模型的推理能力就会急剧下降。
Transformer架构的特性决定了,模型会为n个令牌创建n²的成对关系,随着上下文长度增长,模型捕捉这些关联的能力会持续减弱。同时,模型训练数据中短序列占比极高,针对长距离依赖的专用参数本就不足,即便通过位置编码插值实现了长上下文支持,也无法解决令牌位置理解退化的问题。而MCP架构注入的大量工具模式,恰好会落在上下文中间区域,这是模型注意力最薄弱的位置,直接导致Agent频繁陷入循环,重复无效操作直至达到步骤上限,忘记前期设定的约束条件,错误识别已经变更的系统状态。
在多轮Agent循环中,MCP架构的缺陷会被无限放大。史蒂文斯理工学院的研究表明,不受约束的Reflexion循环机制,运行10个周期的令牌消耗,可能是单次线性传递的50倍,单个任务的成本甚至会达到5至8美元。每一轮会话都会携带完整的历史信息与MCP工具模式,浪费呈指数级增长,最终让Agent架构在生产环境中失去实用价值。
二、技能架构:渐进式披露,重塑Agent的信息获取方式
面对MCP架构的种种弊端,技能架构应运而生,这是一套遵循渐进式披露理念的三级信息加载系统,目前已被Anthropic Agent技能规范正式定义,并广泛应用于Claude Code、OpenAI Codex、Cursor、Gemini CLI等主流开发工具中。其核心逻辑非常朴素,不要在一开始就把所有信息塞给Agent,而是先提供目录,让Agent按需加载所需内容,从根源上减少无效令牌消耗,保留模型的注意力预算用于核心推理。
技能架构分为三个清晰的层级,每一层都精准控制令牌消耗,实现成本与能力的平衡。第一层是元数据层,这是唯一需要始终加载的内容,仅包含技能名称与单行描述,单个技能的令牌消耗仅10至30个。这一层的作用是让Agent知道有哪些能力可用,建立基础的能力认知,不会产生过多开销。即便在200k的大上下文窗口中,一次性加载全部技能元数据,占用比例也不超过10%,而实际使用中,技能的令牌消耗通常低于整体上下文的1%。
第二层是完整技能文档层,以SKILL.md文件为载体,包含完整的执行指令、工作流程与约束条件,单个技能的令牌消耗在200至2000之间。这一层只有在Agent确定要使用对应技能时才会加载,让模型掌握具体的执行方法,避免无关信息干扰。第三层是参考文档层,涵盖API详细规格、深度技术文档等内容,令牌消耗在2000至20000之间,仅在处理复杂边缘场景时按需调用,用于解决非常规问题。
这种三级架构与MCP的全量注入形成天壤之别。MCP是不管需不需要,先把所有工具塞给Agent,而技能架构是只在需要时,才提供对应的信息,静止状态下仅保留极少的元数据,极大减轻了模型的认知负担。很多人会产生误解,认为技能是用来替代传统工具的,实则不然,技能与工具并非替代关系,而是协同关系。技能不提供具体的执行能力,它的核心价值是教会Agent,在合适的场景下,用正确的方式调用工具。
举个简单的例子,Jira的MCP服务器只是暴露了创建工单、更新状态等函数接口,而Jira技能会结合业务场景赋予Agent场景化认知,比如当前处于金融部门,项目空间前缀为FIN,创建工单默认优先级为高等。这种领域化的约束与指引,能让Agent的执行更贴合业务需求,避免无意义的工具调用,大幅提升任务通过率。
行业首个针对技能增强的严格基准测试SkillsBench,通过7308条执行轨迹,在Claude Code、Gemini CLI、Codex CLI等模型上验证了技能架构的价值。测试得出一个关键结论,技能数量并非越多越好,每任务搭配2至3个专注化技能,是性能最优的设计方案。同时,技能的复杂度直接影响效果,详细、具体的技能能让任务通过率提升18.9个百分点,而宽泛、综合的大技能,反而会让性能下降2.9个百分点。这也为开发者提供了明确的设计指引,技能设计要聚焦细分场景,做到小而精,而非大而全。
三、CLI优先:Agent执行层的成本杀手与稳定基石
如果说技能架构解决了Agent的认知成本问题,那么CLI就是执行层的最优选择。在实现相同外部能力的前提下,CLI方案仅需200至500个令牌,相比MCP架构,成本降低10至32倍,搭配技能架构后,静止状态下的令牌消耗更是低至30至50个,性价比碾压MCP。同时,CLI工具具备100%的可靠性,不存在远程调用超时的问题,这是MCP架构永远无法比拟的优势。
以GitHub的issue创建功能为例,CLI方案仅需执行gh issue create --help,就能获取完整的用法说明,包含分配责任人、设置标题、添加标签等核心参数,整体令牌消耗约200个。Agent在训练过程中,已经学习过大量gh命令相关内容,无需额外科普基础用法,就能直接组合命令完成任务,单次交互的总令牌消耗不足500个。而MCP方案需要推送create_issue的完整JSON模式,外加42个永远不会用到的工具定义,冗余信息占据了绝大部分上下文。
CLI优先的Agent设计,包含四大核心模式,每一种都直击生产痛点。第一种是CLI组合优于MCP编排。当技能包装CLI工具时,Agent可以像人类开发者一样,自由组合Unix管道,链式执行命令,这种能力来自模型训练数据中数百万条CLI操作示例。比如查询失败的部署任务,Agent可以通过aws cloudwatch获取监控数据,通过jq过滤结果,通过sort排序,通过head截取前20条,一气呵成完成复杂查询。而MCP工具缺乏可组合性语法,Agent无法即兴编排工具链,每一个操作都需要独立的远程调用,效率极低。
第二种是轻量化技能文件优化执行效率。一个约800令牌的GitHub技能文档,就能让Agent的工具调用次数减少三分之一,延迟同步降低三分之一。这份文档不会重复基础命令,而是聚焦实用技巧,比如优先使用--json获取结构化输出,用jq过滤数据而非grep,通过gh api调用GraphQL接口等。Agent本身已经掌握gh基础用法,技能只是强化其最佳实践,用极低的令牌成本,换来执行效率的大幅提升。
第三种是代码执行优于直接工具调用。Anthropic主推的代码执行模式,能将数据处理完全移出模型上下文。以读取谷歌表格数据为例,MCP方案会将10000行数据全部注入上下文,而代码执行模式下,Agent编写代码调用工具,在上下文外完成数据过滤,仅将5行关键结果返回上下文。数据只有在Agent明确需要时,才会进入上下文窗口,彻底避免了无关数据对注意力的干扰。
第四种是文件系统作为上下文持久化存储。Agent可以将执行过程中的数据写入本地文件,后续步骤直接从文件读取,无需在上下文窗口中保留历史数据,实现零上下文成本的状态持久化。比如从Salesforce查询1000条销售线索,导出为CSV文件保存到工作空间,后续任务直接读取文件即可,既保持了状态连续性,又让上下文窗口始终保持简洁,文件系统成为Agent的低成本长期记忆。
四、选型决策框架:CLI+技能与MCP的适用场景与混合架构
通过全方位对比可以清晰发现,CLI+技能架构在成本、稳定性、执行效率上全面领先,但这并不意味着MCP架构毫无价值。在实际生产环境中,需要结合业务场景理性选型,明确两种架构的适用边界,甚至可以采用混合架构,兼顾成本与安全合规。
CLI+技能架构具备绝对优势的场景主要集中在五大领域。首先是开发者工具场景,Agent模拟人类开发者操作,CLI是最贴合开发者习惯的交互方式,技能可以进一步优化操作逻辑。其次是Agentic编码工作流,包括代码调试、重构、部署等环节,CLI工具生态成熟,执行速度快,无远程依赖。第三是高频本地数据处理,多轮循环的任务对令牌消耗与稳定性要求极高,CLI本地执行完美适配。第四是拥有成熟官方CLI的服务,比如AWS、GitHub、GCP、kubectl等,生态完善,命令标准化,Agent极易掌握。第五是大规模令牌敏感的生产环境,每日会话量超过10000次,成本控制成为核心诉求,CLI+技能能节省巨额开支。
而MCP架构依旧具备不可替代性的场景,主要集中在企业级与合规场景。一是多租户SaaS平台,Agent需要代表不同客户执行操作,MCP的集中式管理更便捷。二是需要严格企业认证的场景,比如逐用户OAuth鉴权、RBAC权限控制、全链路操作审计,MCP能更好地满足管控需求。三是没有提供CLI的SaaS服务,只能通过API与MCP对接。四是强合规要求的业务,需要对每一次Agent操作生成结构化、可查询的审计记录,MCP的接口调用日志更易追溯。
最优的生产方案并非二选一,而是构建以技能为顶层的混合架构。整个架构分为三层,最上层是技能层,静止状态仅消耗30至50令牌,负责定义执行目标与领域上下文,实现渐进式披露。中间层是执行传输层,本地工具、AWS、GitHub、kubectl等走CLI通道,需要OAuth鉴权、SaaS对接的场景走MCP通道。最下层是文件系统与状态存储,将上下文无关的持久化数据移出模型窗口。
在这种架构下,技能层作为智能中枢,根据任务类型自动路由执行方式,本地操作走CLI,外部受控访问走MCP,Agent无需关心底层执行载体,只需要专注于任务推理。这种设计既保留了CLI+技能的成本优势与性能表现,又兼顾了MCP在安全、合规、多租户场景下的价值,实现了成本、性能、安全性的平衡。
五、结语:Agent架构的本质,是物理规律与工程实践的结合
很多人将MCP与CLI+技能的选型,视为技术偏好的争论,但本质上,这是一场遵循物理规律与令牌经济学的必然选择。大模型的注意力预算有限,上下文长度与推理性能成反比,令牌消耗直接对应经济成本,这些都是无法通过优化算法彻底改变的底层约束。MCP架构违背了这些基本规律,试图用全量信息注入的方式赋予Agent能力,最终陷入成本高、稳定性差、性能退化的困境。
而技能+CLI架构,尊重模型的认知局限,用渐进式披露节约注意力预算,用本地CLI降低令牌消耗与网络依赖,用轻量化技能提升任务执行精度,每一项设计都贴合大模型的架构特性与生产环境的实际需求。对于正在构建生产级Agent的开发者来说,这套架构能直接降低运营成本,对于评估Agent编码工具的团队来说,能帮助建立更清晰的选型框架,对于设计Agent架构的技术人员来说,将彻底改变对工具界面的认知。
随着AI Agent越来越深入业务核心,规模化、低成本、高可靠将成为核心竞争力。抛弃昂贵且低效的MCP密集型架构,转向技能+CLI的轻量化方案,不是短期的优化技巧,而是长期的架构升级。在AI技术快速迭代的今天,真正优秀的架构,从来不是堆砌功能与接口,而是用最小的代价,实现最优的效果,技能+CLI,正是AI Agent时代的正确答案。