通用 Coding Agent 越强，垂直 Agent 越不该拼模型

一、那个尴尬的问题

Cursor、Claude Code、Windsurf、Devin......通用 Coding Agent 的推速曲线在 2025--2026 这波基本把"写代码"这件事的基线拉到了一个很难卷的位置------单文件编辑、跨文件重构、跑测试、提 PR，这些过去要专门训个"代码模型"才能干的事，现在一个基座 + 工具循环就搞定了。

于是垂直 Agent 的从业者开始被问一个尴尬的问题：

既然 Claude Code 能调 API、跑 Python、读文件系统、连数据库，那我做"金融代码 Agent / 医疗代码 Agent / 工程代码 Agent"还有什么意义？不就是给 Claude Code 套个壳？

Anthropic 自己在 Building Agents with Skills 那篇 blog 里其实给了一个更激进的答案：他们倾向于不要建垂类 Agent，建 Skills------把领域知识 + 操作流程 + 最佳实践打成文件包，挂到通用 Agent 上就能用。逻辑是：Code is the interface，通用 Agent 通过 coding 能操作一切，差异化不在 Agent 本体，而在"这个领域里你能沉淀什么"。

这话对，但不全对。它适用的是"通用 Agent 能触达数据 + 任务容错率可接受"的那类场景。一旦往下再沉半层------数据碰不到、工具没暴露、容错率接近零、流程要合规------通用 Agent 就算再强，也救不了。这才是垂直 Agent 还值得做的那块地。

下面说说这块地怎么耕。

二、垂直 Agent 真正"贵"在哪儿：四个维度

通用 Coding Agent 的强项是"推理 + 通用工具循环（bash / 文件 / 浏览器 / 代码执行）"。它在下面四个地方会瘸腿，而这四个地方恰恰是垂直 Agent 的发力点。

1. 领域数据：训练集里没有，也爬不到

通用 Agent 的知识截止 + 公开语料，能覆盖 Java 并发模型、React 最佳实践、LeetCode 套路，但覆盖不了：

你们公司内部的 RPC 框架规范
某券商自营的交易撮合内部 API
浙江交工那套桥梁支座的 CAD/BIM 验收标准

这些数据有两个特征：私有 + 活。私有的意思是公网没有，活的意思是三个月一变。垂直 Agent 的第一件事不是写 Agent Loop，是先把"这些数据怎么接、怎么控权、怎么增量更新"想清楚------RAG 是 baseline，但这事儿在工程里真正麻烦的是数据源本身的治理（权限、版本、脱敏）。钛投标那个招投标 Agent 就是把 PDF/Word/扫描件/网页公告这些异构源先啃下来，再做 5 个原子 Skill（解析→生成→美化→检查→查重）。数据接不住，后面全是空中楼阁。

2. 工具链：通用 Agent 的"手脚"不够用

通用 Coding Agent 能 pip install、能 curl、能跑 Jupyter，但遇到下面这种场景就哑火：

医疗：要调 PDB 蛋白质库 + 基因序列工具
工程：要读 CAD/BIM + 现场多模态 + 空间坐标（万卷智能那个 Pocket Engineer 就是干这个的，"看现场"而不是只"读文档"）
金融：要直连交易系统 + 实时行情 + 合规审计埋点

工具不是"多一个 API 而已"，是工具语义要嵌进 Agent 的规划层------招投标 Agent 的"标书检查 Skill"要知道"查什么规则、哪条法规、哪个客户的历史驳回记录"，这不是通用 Agent few-shot 试得出来的，得是"预定义工具-任务映射 + 领域 LLM 辅助"的混合模式，稳定度才上得去。

3. 工作流：不是 user-says-agent-does，是流程本身要被编码

通用 Coding Agent 的交互范式是"你说一句，它干一步"。但垂直场景里，流程本身就是资产：

保险销售：用户说"刚生二胎有房贷年收入 50 万"→ 要走"家庭责任量化→保额测算→儿科门急诊优先级"这条因果链，不能跳步。零犀的做法是把因果知识图谱当"事实底盘"，每轮输出做一致性校验。
旅行：DeepTrip 不是"搜酒店"单点工具，是从"推荐→决策→预订"的闭环，机票/酒店/景点各自检索逻辑不一样，Agent 要能跨入口编排。
数据库运维：腾讯的 DatabaseClaw 把"故障定位→诊断→闭环"做成自主 Skill，14+ 数据库产品全覆盖，故障定位压到 2 分钟。

这些工作流如果丢给通用 Agent 自己规划，能跑通 60%，但剩下 40% 的"行业潜规则 + 异常分支"会让你在验收会上很难看。垂直 Agent 的第二层价值，是把"老专家脑子里那套流程"显式化成可编排、可审计、可回滚的链条------这是通用 Agent 不会主动给你做的事。

4. 验证闭环：通用 Agent 不背锅，垂直 Agent 必须背

写代码错了能改，但：

医疗诊断误判 → 人命
金融合规漏检 → 罚款
工程验收算错 → 塌楼

所以垂直 Agent 必须有一层self-verify ：零犀的因果一致性校验、招投标的"标书查重 + 检查"双 Skill、工程 Agent 的"图纸 vs 现场"交叉比对------这些都是领域专属的评估标准，通用 Agent 的"跑单元测试通过"在那儿不够用。

三、设计方法论：先做"缺什么"诊断，再决定补什么

很多人做垂直 Agent 的惯性动作是：加 Workflow、加 Multi-Agent、加知识库、加 Skills------潜意识里干的是同一件事：替模型思考。

更靠谱的顺序是先问一句------在这个任务上，模型到底缺什么？ 一般四类：

模型缺的	表现	补法
推理	想不明白、规划乱	工作流模板化 / ToT / 领域微调
信息	训练集没有	RAG / 私有数据接入 / Skills 打包
手脚	环境没接口	工具链深度适配 / MCP 协议
约束	容错率低、要合规	评估层 + 因果校验 + 审计埋点

只缺"信息"的，其实不用造 Agent，打个 Skills 包挂 Claude Code 就行（Anthropic 路线）。四类缺两样以上的，才值得搞一个独立垂直 Agent。

架构上 2026 年比较共识的走法是 "基座 + Skills + 工作流编排"三层：

基座：别自训，用最强通用 Coding Agent 当推理引擎（Claude / Gemini / 通义 / 混元，哪个强用哪个）
Skills 层：把领域知识、模板、规范、脚本打成文件包，Agent 逐步读取调用（Anthropic 的定义：Skills = 领域知识 + 操作流程的封装）
编排层：把行业标准工作流显式编码，异常分支 + 验证闭环嵌进去

钛投标、DatabaseClaw、零犀、万卷 Engineer Agent，这几个落地案例骨架都是这套，差别只在"领域数据多厚、工具链多深"。

四、几个反模式（踩坑提醒）

⚠️ 反模式 1：为了"垂直"而垂直。 如果你的场景通用 Coding Agent + 一个 README 就能跑 80%，那就别造 Agent，造 Skills 包就够了。Anthropic 那句话是对的------Code is all you need，Agent 本体不值钱，值钱的是循环里用上的领域数据。
⚠️ 反模式 2：一上来 Multi-Agent。 大部分人做垂直 Agent 的"Multi-Agent"是伪多 Agent------拆出来的 sub-agent 互相没分工，只是把 single-agent 的 prompt 切了四段。垂直场景里单 Agent + 强工具 + 显式工作流往往比 Multi-Agent 稳，除非你真的有"多角色博弈"的需求（比如谈判、审计双人复核）。
⚠️ 反模式 3：把"领域微调"当万能钥匙。 2026 年通用基座的能力已经超过 2024 年大部分垂直微调小模型， "微调 = 适应任务"的旧思路换成"换技能包 = 适应任务"更划算。微调只在"数据极度敏感 + 不能出公网 + 推理成本要压到极低"这三类场景下才优先考虑。

五、收一句

通用 Coding Agent 越强，垂直 Agent 越不该在"模型多聪明"这条轴上卷------那条轴已经被基座厂商卷穿了。

垂直 Agent 的真正价值在四条厚度的累加：领域数据的独占厚度、工具链的集成深度、工作流的编码程度、验证闭环的苛刻度。 这四条加起来，才是 Claude Code 套个壳套不出来的东西。

换句话说------

通用 Agent 是"会写代码的人"，垂直 Agent 是"在这个行业干过十年的老法师 + 会写代码 + 手边工具全连着 + 每一步都知道踩哪儿会死"。前者越来越便宜，后者反而越来越贵。