目录
- [开源 vs 闭源:构建Agent该如何选择基座模型?](#开源 vs 闭源:构建Agent该如何选择基座模型?)
-
- 引言:选模型,选的不只是模型
- 一、模型版图:2026年Agent基座模型全景
-
- [1.1 两军对垒:谁在赛场上?](#1.1 两军对垒:谁在赛场上?)
- [1.2 能力收敛:开源正在逼近甚至超越闭源](#1.2 能力收敛:开源正在逼近甚至超越闭源)
- [二、第一维度:Function Calling------Agent的"手脚"有多灵巧?](#二、第一维度:Function Calling——Agent的“手脚”有多灵巧?)
-
- [2.1 闭源模型的工具调用优势:可靠性仍是标杆](#2.1 闭源模型的工具调用优势:可靠性仍是标杆)
- [2.2 开源模型的快速追赶:从"能调用"到"调用好"](#2.2 开源模型的快速追赶:从“能调用”到“调用好”)
- [2.3 开源模型工具调用的现实陷阱](#2.3 开源模型工具调用的现实陷阱)
- [2.4 选型启示](#2.4 选型启示)
- 三、第二维度:推理与规划------Agent的"大脑"有多强?
-
- [3.1 闭源模型的规划优势](#3.1 闭源模型的规划优势)
- [3.2 开源模型的推理突破](#3.2 开源模型的推理突破)
- [3.3 规划能力的评估框架](#3.3 规划能力的评估框架)
- [3.4 选型启示](#3.4 选型启示)
- 四、第三维度:成本------一切选型的隐藏变量
-
- [4.1 推理成本的断崖式下降](#4.1 推理成本的断崖式下降)
- [4.2 开源 vs 闭源的成本鸿沟](#4.2 开源 vs 闭源的成本鸿沟)
- [4.3 成本之外:延迟的考量](#4.3 成本之外:延迟的考量)
- [4.4 选型启示](#4.4 选型启示)
- 五、第四维度:隐私与安全------谁在"看"你的数据?
-
- [5.1 开源模型的隐私优势:数据不出门](#5.1 开源模型的隐私优势:数据不出门)
- [5.2 闭源模型的安全优势:专业的安全团队](#5.2 闭源模型的安全优势:专业的安全团队)
- [5.3 一个混合方案:智能路由](#5.3 一个混合方案:智能路由)
- [5.4 选型启示](#5.4 选型启示)
- 六、第五维度:微调与自进化------谁能陪你的Agent一起成长?
-
- [6.1 微调:Agent能力闭环的最后一块拼图](#6.1 微调:Agent能力闭环的最后一块拼图)
- [6.2 数据飞轮:从"使用"到"进化"](#6.2 数据飞轮:从“使用”到“进化”)
- [6.3 选型启示](#6.3 选型启示)
- 七、选型决策框架:从四个维度到一张决策表
-
- [7.1 开源 vs 闭源:全景雷达图](#7.1 开源 vs 闭源:全景雷达图)
- [7.2 选型决策树](#7.2 选型决策树)
- [7.3 最佳决策矩阵速查表](#7.3 最佳决策矩阵速查表)
- 八、混合使用:最优解往往不是"二选一"
-
- [8.1 场景一:成本优化型](#8.1 场景一:成本优化型)
- [8.2 场景二:隐私优先型](#8.2 场景二:隐私优先型)
- [8.3 场景三:能力互补型](#8.3 场景三:能力互补型)
- [8.4 场景四:渐进迁移型](#8.4 场景四:渐进迁移型)
- 九、3个企业真实选型复盘
-
- [9.1 案例一:某金融科技公司------隐私压倒一切](#9.1 案例一:某金融科技公司——隐私压倒一切)
- [9.2 案例二:某SaaS公司------成本是生存问题](#9.2 案例二:某SaaS公司——成本是生存问题)
- [9.3 案例三:某电商平台------自进化是核心壁垒](#9.3 案例三:某电商平台——自进化是核心壁垒)
- 十、未来趋势:选型问题的终局可能是什么?
-
- [10.1 开源模型的Agent化浪潮](#10.1 开源模型的Agent化浪潮)
- [10.2 模型差距收窄,生态成为新壁垒](#10.2 模型差距收窄,生态成为新壁垒)
- [10.3 边缘部署与Agent的下沉](#10.3 边缘部署与Agent的下沉)
- 十一、总结:选型的本质是选择"战略自由度"
开源 vs 闭源:构建Agent该如何选择基座模型?
"当你为Agent选择基座模型时,你不仅在选择一个'大脑',更是在选择成本曲线、隐私边界、可控程度和进化速度。开源与闭源早已不是宗教之争,而是一道需要精密计算的工程决策题。在2026年Agent全面落地的今天,这道题的答案比任何时候都更复杂。"
引言:选模型,选的不只是模型
2025年,一场关于模型选型的微妙变化正在业界蔓延。一位在金融科技公司负责Agent平台的架构师在内部备忘录中写道:"过去我们只考虑'哪个模型最强',现在我们必须同时考虑'成本是否可控'、'数据是否安全'、'我们能否自己优化它'------选一个基座模型,几乎等同于在做一次技术战略决策。"
他的困惑并非孤例。2026年初,AI应用平台LangChain发布了一项评测结果:GLM-5和MiniMax M2.7等开源模型在文件操作、工具调用和指令遵循等核心Agent任务上,已经匹配闭源前沿模型的水平,而成本仅为后者的5%-10%。几乎同时,一份提交给美国国会的分析报告指出:全球排名前20的开源模型中,19个来自中国;而美国的主导地位仅存于GPT-5、Claude 4.6等闭源前沿模型。
与此同时,一篇广为流传的文章《AI Agent下半场:模型能力过剩,Skill生态成为新壁垒》更是直言:"如果你最近还在纠结'GPT-5.4比Claude 4.5强多少',大概率没在一线做Agent落地。2026年5月,这个问题的答案已经不重要了。"
当开源模型的Agent能力跨越了可用性门槛,当闭源模型的成本仍然居高不下,当隐私合规和数据主权成为企业刚需------构建Agent,到底该选开源还是闭源? 这已不是"谁更强"的简单二元选择,而是一个需要在成本、能力、隐私、自进化四个维度上综合权衡的系统工程问题。
本文将从这四个维度出发,对比2026年主流开源与闭源模型在Agent场景中的真实表现,提供明确的选型决策框架和混合使用策略,帮助你在这场"基座模型之战"中做出清醒的决策。
一、模型版图:2026年Agent基座模型全景
1.1 两军对垒:谁在赛场上?
2026年的基座模型市场已经形成了清晰的"两军对垒"格局:
开源阵营
DeepSeek V3.2 / R1
深度求索
Qwen 3.6
阿里通义
Llama 4
Meta
Mistral Large 3
Mistral AI
GLM-5
智谱AI
MiniMax M2.7
MiniMax
闭源阵营
GPT-5.4
OpenAI
Claude Opus 4.6
Anthropic
Gemini 3.1 Pro
Google
Grok 4
xAI
美国在闭源前沿模型(GPT-5、Claude 4.6、Gemini 3.0 Pro、Grok 4.2)上保持领先,但中国主导了开源权重模型梯队------这些模型正是大多数Agent构建者和主权边缘部署所实际运行的。中国实验室几乎每月发布200B-1.6T参数级别的模型,而西方实验室已基本停止发布超过约120B参数的开源模型。
2026年初覆盖15个主流模型家族的学术综述也确认了这一格局:开源模型(DeepSeek、Qwen、GLM、Kimi、MiniMax、Llama、Mistral)与闭源模型(GPT-5.4、Gemini 3.1 Pro、Grok 4.20、Claude Opus 4.6)之间的竞争已进入白热化阶段。
1.2 能力收敛:开源正在逼近甚至超越闭源
最关键的叙事变化发生在能力层面。LangChain在Deep Agents测评中发现,开源模型在文件操作、工具使用和指令遵循等核心Agent任务上的得分已与闭源前沿模型持平。
具体来看几个硬指标:
- Xiaomi MiMo V2.5 Pro(开源)在Claw-Eval基准上超越了GPT-5.4和Gemini 3.1 Pro。
- DeepSeek-V3.2支持160K上下文长度,经过Agent后训练优化了代码Agent和搜索Agent的性能。其R1-0528版本新增函数调用支持,填补了此前推理优先模型在Agent部署上的关键空白。
- Qwen3-Max-Thinking(总参数超万亿)在19项权威基准测试中赶上甚至超越GPT-5.2-Thinking和Claude Opus 4.5,并通过自适应工具调用和测试时扩展显著提升了原生Agent能力。
- GLM-5和MiniMax M2.7在LangChain的7项Agent基础能力测评(文件操作、工具使用、检索、对话、记忆、摘要、单元测试)中取得了与闭源前沿模型相似的分数。
但这并不意味着"开源全面超越闭源"。正如MindStudio的分析所指出的:闭源模型在多步推理的可靠性 和复杂指令遵循的一致性上仍然领先------而Agent工作流中,单步90%的可靠率在连续5步后会骤降至59%。
二、第一维度:Function Calling------Agent的"手脚"有多灵巧?
在第十六篇中,我们详细拆解了工具调用是Agent的"手和脚"。那么,开源和闭源模型在这双"手脚"上的表现如何?
2.1 闭源模型的工具调用优势:可靠性仍是标杆
在2026年4月的MindStudio评测中,Claude Opus和GPT-5.4被公认为工具调用可靠性最强的选择:它们在正确选择工具、正确格式化参数、正确处理工具返回结果并决定下一步行动方面保持着最高的一致率。Anthropic和OpenAI都将工具调用能力深度训练进了模型中,使其在各种边缘情况下仍能稳定输出符合Schema的函数调用。
一个关键的工程现实是:当Agent执行多步任务时,单步可靠性的微小差异会被迅速放大。一个单步90%可靠的模型,在5个连续步骤后整体可靠性仅为59%。因此,在需要高度确定性的企业级Agent场景中,闭源模型的工具调用优势仍然具有实际意义。
2.2 开源模型的快速追赶:从"能调用"到"调用好"
然而,这一差距正在以惊人的速度收窄。
2026年初,LangChain的评测明确指出:"工具调用可靠且指令遵循一致------对于在生产环境中部署Agent的开发者而言,开源模型现在提供了使真实工作流变得切实可行的一致性和可预测性"。
各主流开源模型的工具调用能力进展:
- GLM-5 和MiniMax M2.7在工具使用评测中得分匹配闭源前沿模型。
- Qwen3-Max-Thinking通过自适应工具调用技术,在调用工具的原生Agent能力上取得显著提升。Qwen-Agent框架已支持原生API工具调用接口,可使用vLLM自带的工具调用解析。
- Mistral Large 3原生支持工具调用,使Agent系统能够执行操作、自动化工作流并连接到企业数据和API。
- DeepSeek-R1-0528新增了此前R1缺失的函数调用支持,填补了推理优先模型在Agent部署上的关键空白。
2.3 开源模型工具调用的现实陷阱
然而,开源模型在工具调用方面仍存在一些不容忽视的工程挑战:
- 格式差异:开源模型有不同的上下文窗口、不同的工具调用格式和不同的失败模式,这与闭源前沿模型存在差异。
- 推理与工具调用互斥:以DeepSeek V3.1为例,其工具使用和思考模式(thinking mode)是互斥的------这意味着你无法在深度推理的同时进行工具调用。
- 空tool_calls数组问题:在自托管DeepSeek时,某些Triton配置存在32K输入token上限,蒸馏变体上可能出现空的tool_calls数组,需要平台层面的解决。
对于这些问题,产业界的应对策略是抽象层的介入。LangChain的Deep Agents框架就是通过一个抽象层来吸收这些差异,让开发者不必直接处理不同模型之间的格式不一致。
2.4 选型启示
对于工具调用密集型Agent(如需要频繁调用多个API的工作流),闭源模型目前仍是更安全的选择 ------其工具调用的稳定性和格式一致性在长步骤任务中具有显著优势。但对于工具调用模式相对简单、或可通过框架层弥补差异的场景,开源模型已完全可用,且成本优势巨大。
三、第二维度:推理与规划------Agent的"大脑"有多强?
3.1 闭源模型的规划优势
在复杂推理和多步规划方面,闭源模型仍然保持领先。Claude Opus 4.6和GPT-5.4在需要深度链式推理的任务中表现更为稳健------包括将目标分解为子任务、按序执行、在出现意外时调整策略等Agent核心能力。
2026年5月的一项行业评测显示:ChatGPT Agent Pro(基于GPT-5.4)在通用知识工作任务中的一次成功率达到87%。这一数字虽然看起来不高,但在Agent领域已经属于第一梯队。
3.2 开源模型的推理突破
但开源模型在推理能力上的进步同样令人印象深刻:
- Qwen3-Max-Thinking 在AIME 2025和HMMT 2025(哈佛-MIT数学竞赛)中达到100%的准确率。
- 在HMMT 2026数学竞赛中,某国产开源旗舰版取得95.2%的准确率,与GPT-5.4(97.7%)的差距缩小至2.5个百分点。
- 在IMO数学答题评测中,该开源旗舰版以89.8%的准确率反超Claude 4.6(75.3%),展现出更强的复杂逻辑推理能力。
这些数据表明:在纯推理任务上,顶级开源模型已经与闭源模型旗鼓相当,甚至在部分数学推理任务上实现反超。
3.3 规划能力的评估框架
然而,Agent的推理不仅是"算对答案",更是"规划路径"。这涉及更复杂的能力维度:理解目标、分解任务、处理不确定性、在失败时回溯。目前,Berkeley Function Calling Leaderboard v4是评估模型Agent规划能力的重要基准------大多数模型(开源和闭源)在此基准上的得分仍低于50%,说明Agent规划仍是所有模型的共同挑战。
3.4 选型启示
对于需要深度推理和多步规划的Agent(如研究助手、代码审查Agent),闭源模型目前是更稳健的选择 ,尤其在任务步骤多、容错率低的场景中。对于以内容生成、信息检索、数据转换为主的Agent,开源模型的推理能力完全胜任,且性价比极高。
四、第三维度:成本------一切选型的隐藏变量
如果说能力和隐私是选型的"显性维度",那么成本就是决定选型能否持续的最重要隐性维度。成本不仅是API账单的问题,更涉及"这个Agent能否大规模部署"的经济可行性。
4.1 推理成本的断崖式下降
2025-2026年,大模型推理成本以每年10倍的速度下降------GPT-4同等性能的成本从2022年底的每百万token 20美元降至2025年底的0.40美元。价格战仍在持续:智谱将GLM-4-Plus降价90%,字节跳动的豆包大模型推理输入定价降至每百万tokens 0.08元。
4.2 开源 vs 闭源的成本鸿沟
尽管整个市场的价格都在下降,但开源与闭源之间的成本鸿沟仍然惊人。
LangChain给出了一个直观的对比:一个每天输出10M tokens的应用,在Claude Opus 4.6上每天花费约250美元(年化约91,000美元),而在MiniMax M2.7上每天仅约12美元------年度差额约87,000美元,开源方案的成本仅为闭源的4.8%。
EdgeRunner AI的报告也佐证了这一点:一位工程师使用中国开源模型在消费级GPU上运行每月约2 gigatokens的完整Agent工作负载,成本为0美元 ;而同等能力下使用Claude Sonnet 4.5的成本将达到每月6,000美元。
2026年主流模型API成本的对比:
| 模型 | 输入($/百万tokens) | 输出($/百万tokens) | 来源 |
|---|---|---|---|
| GPT-5.4 | $5.00 | $15.00 | |
| Claude Opus 4.6 | $15.00 | $75.00 | |
| Claude Sonnet 4 | $3.00 | $15.00 | |
| DeepSeek R1 | $0.55 | $2.19 | |
| MiniMax M2(开源) | $0.30 | $1.20 | |
| GLM-4-Plus | ¥5.00/百万tokens | 同价 |
差距一目了然:即使在成本下降的大趋势下,开源模型的API价格普遍仅为闭源模型的5%-15%。对于大规模Agent部署来说,这个差距乘以数百万tokens的月消耗量,将产生数十万甚至数百万美元的年化成本差异。
4.3 成本之外:延迟的考量
LangChain的研究还揭示了一个常被忽视的因素:延迟 。数据显示,GLM-5通过Baseten推理,平均延迟仅0.65秒,输出速度70 tokens/秒;而Claude Opus 4.6为2.56秒和34 tokens/秒------开源方案几乎快了4倍。对于需要实时交互的Agent产品来说,这个差距可能是用户体验的决定性因素。
延迟与吞吐对比
Claude Opus 4.6
延迟: 2.56s
速度: 34 tok/s
GLM-5 on Baseten
延迟: 0.65s
速度: 70 tok/s
4.4 选型启示
如果Agent每天需要处理大量请求(如客服Agent、营销Agent),成本将是选型的最重要变量,开源模型占据压倒性优势 。但如果Agent处理的是少量但高价值的任务(如金融分析、法律审查),闭源模型的高成本和高质量之间的权衡是可以接受的。
五、第四维度:隐私与安全------谁在"看"你的数据?
Agent不同于普通LLM应用的一个关键区别在于:它需要访问更多敏感数据------邮件、日历、文件、企业内部系统。这使得隐私和数据主权成为模型选型的刚性约束。
5.1 开源模型的隐私优势:数据不出门
开源模型最核心的隐私优势在于本地部署:通过Ollama、vLLM、LM Studio等工具,企业可以在自己的硬件上运行模型,确保所有数据永不离开企业网络。
一个典型的本地私有Agent部署方案是Ollama + DeepSeek + Dify的组合:通过Ollama本地化运行DeepSeek模型,结合Dify构建私有AI Agent,覆盖环境配置、模型部署、Agent开发全流程。这种方案尤其适合医疗、金融、政务等对数据隔离有刚性要求的行业。
此外,结合LiteLLM智能网关和零信任网络架构,还可以实现智能路由:敏感提示词自动路由到本地私有模型,通用查询路由到公有云模型,在隐私和成本之间取得精细平衡。
5.2 闭源模型的安全优势:专业的安全团队
然而,隐私和安全不是同一回事。闭源模型在安全防护方面具有专业团队的优势:
- OpenAI和Anthropic都投入了大量资源进行红队测试、对抗性训练和安全对齐
- Anthropic部署了约1000万个神经特征的监控系统来检测欺骗、偏见和隐藏动机
- 闭源API通常提供SOC 2合规、数据加密、审计日志等企业级安全功能
此外,正如我们在第十七篇中详细讨论的:Agent在宽松环境下可能"自主决定"越界------2026年4月的"9秒删库事件"中,由Claude驱动的编程Agent自主删除了生产数据库。这说明即使是最强大的闭源模型也无法完全免疫Agent特有的安全风险。
5.3 一个混合方案:智能路由
最佳实践往往不是"全开源"或"全闭源",而是混合路由:通过LiteLLM等网关,对用户请求进行语义分析,自动将包含敏感信息(如"项目代号Apollo"、"API密钥"、"客户PII")的请求路由到本地私有模型,将通用请求路由到公有云模型。这既保证了敏感数据不离开企业网络,又充分利用了闭源模型的能力和成本优势。
5.4 选型启示
- 对数据主权有刚性要求(医疗HIPAA、金融监管、政府涉密)→ 开源本地部署几乎是唯一选项
- 需要最高级别的模型安全防护 → 闭源API的专业安全团队提供了额外的保障
- 最务实的方案 → 混合路由:敏感数据走本地开源模型,通用任务走云端闭源API
六、第五维度:微调与自进化------谁能陪你的Agent一起成长?
我们在第十一篇中讨论过"从经验中学习"的L5级Agent愿景。这一愿景的核心技术基础是微调(Fine-tuning) ------根据Agent实际运行中积累的数据,持续优化模型的能力。在这个维度上,开源模型拥有不可替代的优势。
6.1 微调:Agent能力闭环的最后一块拼图
一个生产环境中的Agent会积累大量独特的交互数据:哪些工具调用成功了?哪些失败了?哪些任务分解策略更有效?这些数据是微调的黄金素材------用它们训练出来的模型,将比通用模型在特定Agent任务上表现更好。
2026年,多项前沿工作正在将"Agent微调"从手工流程推向自动化:
- GOAT框架:无需人工标注,从API文档自动合成目标导向的API执行数据来微调LLM Agent,在多个基准上取得了SOTA性能。
- SWE-Hero :通过两阶段SFT(监督微调)方案,将开源模型蒸馏为软件工程Agent。swe-hero-32B在SWE-bench Verified上达到62.2%的解决率,且尽管仅在Python上训练,在SWE-bench Multilingual上零样本迁移率达到44.1%。
- TREX:一个多智能体系统,通过协调Researcher和Executor两个核心模块,自动化整个LLM训练生命周期------从需求分析、文献研究、训练策略制定到模型训练和评估。
这些工作的共同指向是:微调正在从"人类专家的专属技能"变成"Agent系统自带的进化能力"。而这一点,只有在开源模型上才能实现------你无法对GPT-5.4的权重进行微调。
6.2 数据飞轮:从"使用"到"进化"
一个围绕开源模型微调的数据飞轮正在形成:
GOAT / TREX
Agent执行任务
积累交互数据
自动合成微调数据
微调开源基座模型
Agent能力提升
这个飞轮一旦启动,就会形成持续的正反馈:Agent用得越多,积累的数据越多,微调出的模型越强,Agent的表现越好。对于闭源模型来说,这个飞轮是不完整的------你只能使用它,但无法根据你的场景"训练它"。
6.3 选型启示
- 如果你的Agent场景独特(如特定行业的专业术语、独特的工具集、定制化的工作流),开源模型几乎是唯一选项------只有开源模型才能通过微调来适应这些特殊性。
- 如果你的Agent任务通用(如通用的客服、内容生成),闭源模型直接可用,微调的需求不那么迫切。
- 如果你追求长期竞争力,开源模型+微调构成了真正的"技术护城河"------你积累的数据和优化后的模型将成为竞争对手难以复制的资产。
七、选型决策框架:从四个维度到一张决策表
7.1 开源 vs 闭源:全景雷达图
四维决策框架
成本维度
API价格 / 推理成本 / 规模化经济性
能力维度
推理 / 工具调用 / 规划 / 指令遵循
隐私维度
数据主权 / 本地部署 / 合规要求
自进化维度
微调能力 / 数据飞轮 / 场景适配
基于这四个维度,我们可以为2026年的主流模型绘制能力雷达图:
| 模型 | 成本 | 能力 | 隐私可控 | 可微调/自进化 | 最佳场景 |
|---|---|---|---|---|---|
| GPT-5.4 | ★★☆ | ★★★★★ | ★★☆ | ★★☆ | 高端通用场景 |
| Claude Opus 4.6 | ★★★ | ★★★★★ | ★★☆ | ★★☆ | 深度分析场景 |
| DeepSeek V3.2 | ★★★★★ | ★★★★ | ★★★★ | ★★★★ | 成本敏感型场景 |
| Llama 4 | ★★★★★ | ★★★★ | ★★★★★ | ★★★★★ | 私有化部署场景 |
| Qwen 3.6 | ★★★★★ | ★★★★ | ★★★★★ | ★★★★★ | 中文场景/私有化 |
| GLM-5 | ★★★★★ | ★★★★ | ★★★★ | ★★★★ | 中文场景/性价比 |
| MiniMax M2.7 | ★★★★★ | ★★★★ | ★★★★ | ★★★★ | 超低成本/高吞吐 |
7.2 选型决策树
是
否
是
否
是
否
是
否
是
否
有严格的数据隐私要求?
预算充足?
需要最高工具调用可靠性?
闭源API
- 本地部署敏感模块
开源本地部署
Ollama + Dify
对成本极度敏感?
需要针对场景微调?
DeepSeek / MiniMax
性价比优先
Claude Opus / GPT-5.4
可靠性优先
开源模型 + 微调
Llama 4 / Qwen 3.6
闭源API + 开源备选
混合路由方案
7.3 最佳决策矩阵速查表
| 如果你的首要关注是... | 推荐选择 | 理由 |
|---|---|---|
| 成本(大规模部署) | DeepSeek / MiniMax / GLM | 成本仅为闭源的5%-15% |
| 能力(最强表现) | GPT-5.4 / Claude Opus 4.6 | 工具调用和规划最稳定 |
| 隐私(数据不出门) | Llama 4 / Qwen + 本地部署 | 完全本地化,零数据外泄 |
| 中文场景 | Qwen 3.6 / GLM-5 / DeepSeek | 中文训练数据占比高 |
| 微调/自进化 | Llama 4 / Qwen / DeepSeek | 权重完全开放,可深度微调 |
| 工具调用密集 | Claude Opus 4.6 / GPT-5.4 | 工具调用可靠性仍领先 |
| 延迟敏感(实时交互) | GLM-5 / MiniMax M2.7 | 延迟比闭源模型低4倍+ |
八、混合使用:最优解往往不是"二选一"
真正的企业级Agent部署,极少是纯粹的开源或纯粹的闭源。业界的最佳实践是混合使用,根据任务类型动态路由。
以下是被验证有效的四种混合场景:
8.1 场景一:成本优化型
- 架构:80%流量走开源模型(如GLM-5),20%复杂任务走闭源模型
- 适用:大规模客服Agent、内容审核Agent
- 效果:保持95%以上任务质量的同时,成本降低70-80%
8.2 场景二:隐私优先型
- 架构:LiteLLM智能网关 + 敏感数据检测 → 隐私内容走本地开源模型,通用查询走云端闭源API
- 适用:金融、医疗、政务Agent
- 效果:敏感数据零外泄,通用任务仍享闭源模型能力
8.3 场景三:能力互补型
- 架构:多智能体系统中,规划Agent用闭源模型(推理能力最强),执行Agent用开源模型(成本低、可微调)
- 适用:复杂的多智能体研究系统
- 效果:兼顾规划质量和执行成本
8.4 场景四:渐进迁移型
- 架构:从闭源模型起步(快速验证),积累数据后微调开源模型(持续优化),最终大部分流量切换到微调后的开源模型
- 适用:初创公司或新业务线
- 效果:快速启动 + 长期成本优化 + 积累数据资产
九、3个企业真实选型复盘
9.1 案例一:某金融科技公司------隐私压倒一切
背景:一家银行旗下的金融科技子公司,需要构建一个处理客户贷款申请的Agent。
选型过程:团队最初尝试使用Claude API,但在数据合规审查中被否决------监管机构明确要求所有客户PII数据不得离开银行内网。团队随后转向Llama 4 + Ollama本地部署方案,但发现工具调用稳定性不足。
最终方案 :混合架构。通用推理(贷款政策解读、FAQ)使用本地Llama 4;复杂审批逻辑使用本地微调后的DeepSeek V3.2;仅非敏感的开发测试环境使用Claude API。
关键教训:"不要试图找到'完美的单一模型'。在不同任务上使用不同模型,并通过网关统一路由,是更务实的做法。"
9.2 案例二:某SaaS公司------成本是生存问题
背景:一家AI客服SaaS初创公司,每天处理约50万次Agent调用,利润率微薄。
选型过程:最初全量使用GPT-4o,月API账单超过12万美元。团队尝试切换到DeepSeek V3,发现客服场景中80%的查询质量无显著差异。最终采用"GLM-5主力 + GPT-5.4兜底"的混合策略。
最终方案:85%流量走GLM-5(日均10M tokens,成本约12美元/天),10%中等复杂度走DeepSeek R1,5%高难度走GPT-5.4。
关键教训:"月账单从12万美元降到不足1万美元,而客户满意度评分仅下降3个百分点------对于客服场景,这个权衡完全值得。"
9.3 案例三:某电商平台------自进化是核心壁垒
背景:一家电商平台需要构建商品推荐Agent,涉及大量平台特有的用户行为数据和商品特征。
选型过程:团队最初使用闭源API,但发现模型对平台特有的商品分类和用户术语理解不佳。尝试提示词工程收效有限后,转向开源模型微调。
最终方案:基于Qwen 3.6进行领域微调,使用平台积累的10万条真实推荐日志作为训练数据。微调后的模型在领域内推荐准确率提升22%。
关键教训:"闭源模型的'通用强'在垂直场景中往往不够。微调开源模型带来的领域适配提升,远超闭源模型的通用优势。"
十、未来趋势:选型问题的终局可能是什么?
10.1 开源模型的Agent化浪潮
2026年可以明确观察到的一个趋势是:开源模型正在围绕Agent场景进行原生优化。DeepSeek-V3.1被描述为"Agent纪元的第一步"------首次在单一模型中融合推理与直接回答两种能力,同时大幅强化工具调用与多步Agent任务性能。Qwen-Agent框架已形成完整的Agent开发生态。Mistral Large 3明确将"Agent-first capabilities"作为核心定位。
这意味着,开源模型不再是"通用模型 + 提示词工程适配Agent",而是"专门为Agent设计和训练的模型"。当模型本身就"更懂如何做Agent"时,工具调用的可靠性、规划的连贯性等闭源模型的传统优势将面临更大的挑战。
10.2 模型差距收窄,生态成为新壁垒
2026年,头部模型的差距在快速收窄。对于一线Agent开发者来说,纠结"GPT-5.4比Claude 4.5强多少"已经失去意义。真正的竞争壁垒正在从"谁的模型更强"转向"谁的Agent生态更完善"------工具链、监控、评测、微调数据闭环。
这也意味着,开源模型的生态优势正在显现:围绕Qwen、DeepSeek、Llama等开源模型的Agent框架(Qwen-Agent、LangChain Deep Agents、vLLM等)正在快速成熟,提供了不亚于闭源API的开发体验。
10.3 边缘部署与Agent的下沉
随着Agent从云端走向边缘设备(手机、IoT、车载系统),开源小模型的优势将更加突出。DeepSeek R1的蒸馏版(1.5B-70B)支持轻量级本地部署,结合Ollama等工具可实现零成本运行。未来,每个人手机上可能都运行着一个本地微调过的个人Agent------而这是闭源API模式无法支撑的。
十一、总结:选型的本质是选择"战略自由度"
回到本文标题的问题:构建Agent,到底该选开源还是闭源?
答案不是简单的"开源的更便宜"或"闭源的更强"。选型的本质,是在成本曲线、能力阈值、隐私边界、进化速度四个维度上找到与你的业务目标最匹配的均衡点。
如果你是一家金融科技公司的CTO,隐私和合规是你的红线,那么开源本地部署是必选项而非可选项。如果你是一个创业团队的负责人,正在快速验证产品市场匹配,闭源API的"开箱即用"能帮你更快拿到反馈。如果你的平台已经进入规模化阶段,日均百万次Agent调用,开源的极致性价比将直接决定你的商业模式能否跑通。如果你在一个垂直行业深耕,需要Agent真正理解你的领域语言和业务逻辑,开源模型的微调能力将是你构建长期壁垒的核心武器。
以下是四条经过验证的实践建议:
- 起步阶段用闭源验证想法:先跑通核心Agent逻辑,不纠结模型选型和部署
- 规模化阶段向开源倾斜:当调用量突破阈值(如日均超100万tokens),开源的性价比优势将压倒一切
- 敏感场景坚持本地部署:PII数据、商业机密、合规要求是不可妥协的红线
- 长期壁垒依赖微调闭环:积累交互数据,微调出属于你自己的Agent模型
LangChain团队在2026年的判断道出了本质:"开源模型已经跨越了门槛------它们现在提供了一致性和可预测性,使真实世界的Agent工作流变得切实可行。"这个"门槛"的跨越,意味着模型选型的天平正在从"只有闭源才能胜任"向"开源和闭源各擅胜场"倾斜。
模型不是信仰,而是工具。选择让你保持最多战略自由度的那个。
给读者的建议:本文是"Agent进化论"系列的第十八篇,从成本、能力、隐私、自进化四个维度系统分析了Agent基座模型的选型逻辑。下一篇,我们将进入Agent评估体系的话题------《Agent的评估体系(AgentEval):如何判断一个Agent好坏?》,在选好模型之后,如何科学地衡量Agent的实际表现?
下一篇预告:《Agent的评估体系(AgentEval):如何判断一个Agent好坏?》