通用 Coding Agent 越强,垂直 Agent 越不该拼模型

一、那个尴尬的问题

Cursor、Claude Code、Windsurf、Devin......通用 Coding Agent 的推速曲线在 2025--2026 这波基本把"写代码"这件事的基线拉到了一个很难卷的位置------单文件编辑、跨文件重构、跑测试、提 PR,这些过去要专门训个"代码模型"才能干的事,现在一个基座 + 工具循环就搞定了。

于是垂直 Agent 的从业者开始被问一个尴尬的问题:

既然 Claude Code 能调 API、跑 Python、读文件系统、连数据库,那我做"金融代码 Agent / 医疗代码 Agent / 工程代码 Agent"还有什么意义?不就是给 Claude Code 套个壳?

Anthropic 自己在 Building Agents with Skills 那篇 blog 里其实给了一个更激进的答案:他们倾向于不要建垂类 Agent,建 Skills------把领域知识 + 操作流程 + 最佳实践打成文件包,挂到通用 Agent 上就能用。逻辑是:Code is the interface,通用 Agent 通过 coding 能操作一切,差异化不在 Agent 本体,而在"这个领域里你能沉淀什么"。

这话对,但不全对。它适用的是"通用 Agent 能触达数据 + 任务容错率可接受"的那类场景。一旦往下再沉半层------数据碰不到、工具没暴露、容错率接近零、流程要合规------通用 Agent 就算再强,也救不了。这才是垂直 Agent 还值得做的那块地。

下面说说这块地怎么耕。


二、垂直 Agent 真正"贵"在哪儿:四个维度

通用 Coding Agent 的强项是"推理 + 通用工具循环(bash / 文件 / 浏览器 / 代码执行)"。它在下面四个地方会瘸腿,而这四个地方恰恰是垂直 Agent 的发力点。

1. 领域数据:训练集里没有,也爬不到

通用 Agent 的知识截止 + 公开语料,能覆盖 Java 并发模型、React 最佳实践、LeetCode 套路,但覆盖不了:

  • 你们公司内部的 RPC 框架规范
  • 某券商自营的交易撮合内部 API
  • 浙江交工那套桥梁支座的 CAD/BIM 验收标准

这些数据有两个特征:私有 + 活。私有的意思是公网没有,活的意思是三个月一变。垂直 Agent 的第一件事不是写 Agent Loop,是先把"这些数据怎么接、怎么控权、怎么增量更新"想清楚------RAG 是 baseline,但这事儿在工程里真正麻烦的是数据源本身的治理(权限、版本、脱敏)。钛投标那个招投标 Agent 就是把 PDF/Word/扫描件/网页公告这些异构源先啃下来,再做 5 个原子 Skill(解析→生成→美化→检查→查重)。数据接不住,后面全是空中楼阁。

2. 工具链:通用 Agent 的"手脚"不够用

通用 Coding Agent 能 pip install、能 curl、能跑 Jupyter,但遇到下面这种场景就哑火:

  • 医疗:要调 PDB 蛋白质库 + 基因序列工具
  • 工程:要读 CAD/BIM + 现场多模态 + 空间坐标(万卷智能那个 Pocket Engineer 就是干这个的,"看现场"而不是只"读文档")
  • 金融:要直连交易系统 + 实时行情 + 合规审计埋点

工具不是"多一个 API 而已",是工具语义要嵌进 Agent 的规划层------招投标 Agent 的"标书检查 Skill"要知道"查什么规则、哪条法规、哪个客户的历史驳回记录",这不是通用 Agent few-shot 试得出来的,得是"预定义工具-任务映射 + 领域 LLM 辅助"的混合模式,稳定度才上得去。

3. 工作流:不是 user-says-agent-does,是流程本身要被编码

通用 Coding Agent 的交互范式是"你说一句,它干一步"。但垂直场景里,流程本身就是资产

  • 保险销售:用户说"刚生二胎有房贷年收入 50 万"→ 要走"家庭责任量化→保额测算→儿科门急诊优先级"这条因果链,不能跳步。零犀的做法是把因果知识图谱当"事实底盘",每轮输出做一致性校验。
  • 旅行:DeepTrip 不是"搜酒店"单点工具,是从"推荐→决策→预订"的闭环,机票/酒店/景点各自检索逻辑不一样,Agent 要能跨入口编排。
  • 数据库运维:腾讯的 DatabaseClaw 把"故障定位→诊断→闭环"做成自主 Skill,14+ 数据库产品全覆盖,故障定位压到 2 分钟。

这些工作流如果丢给通用 Agent 自己规划,能跑通 60%,但剩下 40% 的"行业潜规则 + 异常分支"会让你在验收会上很难看。垂直 Agent 的第二层价值,是把"老专家脑子里那套流程"显式化成可编排、可审计、可回滚的链条------这是通用 Agent 不会主动给你做的事。

4. 验证闭环:通用 Agent 不背锅,垂直 Agent 必须背

写代码错了能改,但:

  • 医疗诊断误判 → 人命
  • 金融合规漏检 → 罚款
  • 工程验收算错 → 塌楼

所以垂直 Agent 必须有一层self-verify :零犀的因果一致性校验、招投标的"标书查重 + 检查"双 Skill、工程 Agent 的"图纸 vs 现场"交叉比对------这些都是领域专属的评估标准,通用 Agent 的"跑单元测试通过"在那儿不够用。


三、设计方法论:先做"缺什么"诊断,再决定补什么

很多人做垂直 Agent 的惯性动作是:加 Workflow、加 Multi-Agent、加知识库、加 Skills------潜意识里干的是同一件事:替模型思考

更靠谱的顺序是先问一句------在这个任务上,模型到底缺什么? ​ 一般四类:

模型缺的 表现 补法
推理 想不明白、规划乱 工作流模板化 / ToT / 领域微调
信息 训练集没有 RAG / 私有数据接入 / Skills 打包
手脚 环境没接口 工具链深度适配 / MCP 协议
约束 容错率低、要合规 评估层 + 因果校验 + 审计埋点

只缺"信息"的,其实不用造 Agent,打个 Skills 包挂 Claude Code 就行(Anthropic 路线)。四类缺两样以上的,才值得搞一个独立垂直 Agent。

架构上 2026 年比较共识的走法是 "基座 + Skills + 工作流编排"三层

  • 基座:别自训,用最强通用 Coding Agent 当推理引擎(Claude / Gemini / 通义 / 混元,哪个强用哪个)
  • Skills 层:把领域知识、模板、规范、脚本打成文件包,Agent 逐步读取调用(Anthropic 的定义:Skills = 领域知识 + 操作流程的封装)
  • 编排层:把行业标准工作流显式编码,异常分支 + 验证闭环嵌进去

钛投标、DatabaseClaw、零犀、万卷 Engineer Agent,这几个落地案例骨架都是这套,差别只在"领域数据多厚、工具链多深"。


四、几个反模式(踩坑提醒)

⚠️ 反模式 1:为了"垂直"而垂直。 ​ 如果你的场景通用 Coding Agent + 一个 README 就能跑 80%,那就别造 Agent,造 Skills 包就够了。Anthropic 那句话是对的------Code is all you need,Agent 本体不值钱,值钱的是循环里用上的领域数据。
⚠️ 反模式 2:一上来 Multi-Agent。 ​ 大部分人做垂直 Agent 的"Multi-Agent"是伪多 Agent------拆出来的 sub-agent 互相没分工,只是把 single-agent 的 prompt 切了四段。垂直场景里单 Agent + 强工具 + 显式工作流往往比 Multi-Agent 稳,除非你真的有"多角色博弈"的需求(比如谈判、审计双人复核)。
⚠️ 反模式 3:把"领域微调"当万能钥匙。 ​ 2026 年通用基座的能力已经超过 2024 年大部分垂直微调小模型, "微调 = 适应任务"的旧思路换成"换技能包 = 适应任务"更划算。微调只在"数据极度敏感 + 不能出公网 + 推理成本要压到极低"这三类场景下才优先考虑。


五、收一句

通用 Coding Agent 越强,垂直 Agent 越不该在"模型多聪明"这条轴上卷------那条轴已经被基座厂商卷穿了。

垂直 Agent 的真正价值在四条厚度的累加:领域数据的独占厚度、工具链的集成深度、工作流的编码程度、验证闭环的苛刻度。 ​ 这四条加起来,才是 Claude Code 套个壳套不出来的东西。

换句话说------

通用 Agent 是"会写代码的人",垂直 Agent 是"在这个行业干过十年的老法师 + 会写代码 + 手边工具全连着 + 每一步都知道踩哪儿会死"。前者越来越便宜,后者反而越来越贵。

相关推荐
To_OC2 小时前
跑通一遍 Tool Call 后,我终于搞懂大模型是怎么调用工具的
人工智能·aigc·agent
Mintimate3 小时前
用 EdgeOne Makers 构建与托管 Agent:从 RAG 检索到智能助手
人工智能·agent
Darling噜啦啦3 小时前
Tool Use 底层原理:当"缸中大脑"遇上物理世界——LLM 工具调用的认知哲学与技术实现
llm·agent
itwetouch3 小时前
10分钟速览superpower+gstack实践
agent·claude·skills·superpower·gstack
不大耳朵图图4 小时前
OpenClaw 架构拆解与工程化实战:那只龙虾到底在本地跑了什么
agent
码哥字节6 小时前
用了三个月 Superpowers,我才明白 204K Star 背后真正解决的是什么问题
agent·claude
得物技术6 小时前
从表单到 Agent:得物社区活动搭建的 AI 实践之路
人工智能·架构·agent
前端双越老师7 小时前
Agent 实战: 智语 + baoyu-skills 自动发布文章到公众号
前端·agent·全栈
不好听6137 小时前
拆解 LLM Tool Use 的完整机制:从缸中大脑到 Agent 觉醒
架构·llm·agent