一、那个尴尬的问题
Cursor、Claude Code、Windsurf、Devin......通用 Coding Agent 的推速曲线在 2025--2026 这波基本把"写代码"这件事的基线拉到了一个很难卷的位置------单文件编辑、跨文件重构、跑测试、提 PR,这些过去要专门训个"代码模型"才能干的事,现在一个基座 + 工具循环就搞定了。
于是垂直 Agent 的从业者开始被问一个尴尬的问题:
既然 Claude Code 能调 API、跑 Python、读文件系统、连数据库,那我做"金融代码 Agent / 医疗代码 Agent / 工程代码 Agent"还有什么意义?不就是给 Claude Code 套个壳?
Anthropic 自己在 Building Agents with Skills 那篇 blog 里其实给了一个更激进的答案:他们倾向于不要建垂类 Agent,建 Skills------把领域知识 + 操作流程 + 最佳实践打成文件包,挂到通用 Agent 上就能用。逻辑是:Code is the interface,通用 Agent 通过 coding 能操作一切,差异化不在 Agent 本体,而在"这个领域里你能沉淀什么"。
这话对,但不全对。它适用的是"通用 Agent 能触达数据 + 任务容错率可接受"的那类场景。一旦往下再沉半层------数据碰不到、工具没暴露、容错率接近零、流程要合规------通用 Agent 就算再强,也救不了。这才是垂直 Agent 还值得做的那块地。
下面说说这块地怎么耕。
二、垂直 Agent 真正"贵"在哪儿:四个维度
通用 Coding Agent 的强项是"推理 + 通用工具循环(bash / 文件 / 浏览器 / 代码执行)"。它在下面四个地方会瘸腿,而这四个地方恰恰是垂直 Agent 的发力点。
1. 领域数据:训练集里没有,也爬不到
通用 Agent 的知识截止 + 公开语料,能覆盖 Java 并发模型、React 最佳实践、LeetCode 套路,但覆盖不了:
- 你们公司内部的 RPC 框架规范
- 某券商自营的交易撮合内部 API
- 浙江交工那套桥梁支座的 CAD/BIM 验收标准
这些数据有两个特征:私有 + 活。私有的意思是公网没有,活的意思是三个月一变。垂直 Agent 的第一件事不是写 Agent Loop,是先把"这些数据怎么接、怎么控权、怎么增量更新"想清楚------RAG 是 baseline,但这事儿在工程里真正麻烦的是数据源本身的治理(权限、版本、脱敏)。钛投标那个招投标 Agent 就是把 PDF/Word/扫描件/网页公告这些异构源先啃下来,再做 5 个原子 Skill(解析→生成→美化→检查→查重)。数据接不住,后面全是空中楼阁。
2. 工具链:通用 Agent 的"手脚"不够用
通用 Coding Agent 能 pip install、能 curl、能跑 Jupyter,但遇到下面这种场景就哑火:
- 医疗:要调 PDB 蛋白质库 + 基因序列工具
- 工程:要读 CAD/BIM + 现场多模态 + 空间坐标(万卷智能那个 Pocket Engineer 就是干这个的,"看现场"而不是只"读文档")
- 金融:要直连交易系统 + 实时行情 + 合规审计埋点
工具不是"多一个 API 而已",是工具语义要嵌进 Agent 的规划层------招投标 Agent 的"标书检查 Skill"要知道"查什么规则、哪条法规、哪个客户的历史驳回记录",这不是通用 Agent few-shot 试得出来的,得是"预定义工具-任务映射 + 领域 LLM 辅助"的混合模式,稳定度才上得去。
3. 工作流:不是 user-says-agent-does,是流程本身要被编码
通用 Coding Agent 的交互范式是"你说一句,它干一步"。但垂直场景里,流程本身就是资产:
- 保险销售:用户说"刚生二胎有房贷年收入 50 万"→ 要走"家庭责任量化→保额测算→儿科门急诊优先级"这条因果链,不能跳步。零犀的做法是把因果知识图谱当"事实底盘",每轮输出做一致性校验。
- 旅行:DeepTrip 不是"搜酒店"单点工具,是从"推荐→决策→预订"的闭环,机票/酒店/景点各自检索逻辑不一样,Agent 要能跨入口编排。
- 数据库运维:腾讯的 DatabaseClaw 把"故障定位→诊断→闭环"做成自主 Skill,14+ 数据库产品全覆盖,故障定位压到 2 分钟。
这些工作流如果丢给通用 Agent 自己规划,能跑通 60%,但剩下 40% 的"行业潜规则 + 异常分支"会让你在验收会上很难看。垂直 Agent 的第二层价值,是把"老专家脑子里那套流程"显式化成可编排、可审计、可回滚的链条------这是通用 Agent 不会主动给你做的事。
4. 验证闭环:通用 Agent 不背锅,垂直 Agent 必须背
写代码错了能改,但:
- 医疗诊断误判 → 人命
- 金融合规漏检 → 罚款
- 工程验收算错 → 塌楼
所以垂直 Agent 必须有一层self-verify :零犀的因果一致性校验、招投标的"标书查重 + 检查"双 Skill、工程 Agent 的"图纸 vs 现场"交叉比对------这些都是领域专属的评估标准,通用 Agent 的"跑单元测试通过"在那儿不够用。
三、设计方法论:先做"缺什么"诊断,再决定补什么
很多人做垂直 Agent 的惯性动作是:加 Workflow、加 Multi-Agent、加知识库、加 Skills------潜意识里干的是同一件事:替模型思考。
更靠谱的顺序是先问一句------在这个任务上,模型到底缺什么? 一般四类:
| 模型缺的 | 表现 | 补法 |
|---|---|---|
| 推理 | 想不明白、规划乱 | 工作流模板化 / ToT / 领域微调 |
| 信息 | 训练集没有 | RAG / 私有数据接入 / Skills 打包 |
| 手脚 | 环境没接口 | 工具链深度适配 / MCP 协议 |
| 约束 | 容错率低、要合规 | 评估层 + 因果校验 + 审计埋点 |
只缺"信息"的,其实不用造 Agent,打个 Skills 包挂 Claude Code 就行(Anthropic 路线)。四类缺两样以上的,才值得搞一个独立垂直 Agent。
架构上 2026 年比较共识的走法是 "基座 + Skills + 工作流编排"三层:
- 基座:别自训,用最强通用 Coding Agent 当推理引擎(Claude / Gemini / 通义 / 混元,哪个强用哪个)
- Skills 层:把领域知识、模板、规范、脚本打成文件包,Agent 逐步读取调用(Anthropic 的定义:Skills = 领域知识 + 操作流程的封装)
- 编排层:把行业标准工作流显式编码,异常分支 + 验证闭环嵌进去
钛投标、DatabaseClaw、零犀、万卷 Engineer Agent,这几个落地案例骨架都是这套,差别只在"领域数据多厚、工具链多深"。
四、几个反模式(踩坑提醒)
⚠️ 反模式 1:为了"垂直"而垂直。 如果你的场景通用 Coding Agent + 一个 README 就能跑 80%,那就别造 Agent,造 Skills 包就够了。Anthropic 那句话是对的------Code is all you need,Agent 本体不值钱,值钱的是循环里用上的领域数据。
⚠️ 反模式 2:一上来 Multi-Agent。 大部分人做垂直 Agent 的"Multi-Agent"是伪多 Agent------拆出来的 sub-agent 互相没分工,只是把 single-agent 的 prompt 切了四段。垂直场景里单 Agent + 强工具 + 显式工作流往往比 Multi-Agent 稳,除非你真的有"多角色博弈"的需求(比如谈判、审计双人复核)。
⚠️ 反模式 3:把"领域微调"当万能钥匙。 2026 年通用基座的能力已经超过 2024 年大部分垂直微调小模型, "微调 = 适应任务"的旧思路换成"换技能包 = 适应任务"更划算。微调只在"数据极度敏感 + 不能出公网 + 推理成本要压到极低"这三类场景下才优先考虑。
五、收一句
通用 Coding Agent 越强,垂直 Agent 越不该在"模型多聪明"这条轴上卷------那条轴已经被基座厂商卷穿了。
垂直 Agent 的真正价值在四条厚度的累加:领域数据的独占厚度、工具链的集成深度、工作流的编码程度、验证闭环的苛刻度。 这四条加起来,才是 Claude Code 套个壳套不出来的东西。
换句话说------
通用 Agent 是"会写代码的人",垂直 Agent 是"在这个行业干过十年的老法师 + 会写代码 + 手边工具全连着 + 每一步都知道踩哪儿会死"。前者越来越便宜,后者反而越来越贵。