摘要
2026年,AI大模型产业正经历一场深刻的范式转移:竞争重心正从"谁拥有更强的基座模型"向"谁拥有更优的工程化Harness"和"谁构建了更丰富的可复用Skill生态"迁移。本报告结合最新的产业动态、开源项目分析、行业研究报告和产品案例,系统梳理Agent工程化的核心趋势,论证当前各家Agent框架本质上正在走向Harness层面的工程化趋同,而未来差异化竞争的关键将从模型层上移至"Skill编排能力"和"生态整合深度"。报告还以Manus的兴衰为切入点,分析在Harness趋同时代如何构建可持续的竞争壁垒,并对2026-2028年的产业演进方向提出预判。
一、引言:一个被严重低估的范式转移
2026年春天,AI大模型正式告别过去的聊天对话模式,迈入了以Agent为核心的主动执行新阶段。从Claude Code到ChatGPT Agent,从开源的OpenClaw到国内各大厂商的"类龙虾"产品,Agent正在成为AI价值兑现的核心载体。然而,在APEX-Agents这一新型基准测试中,即便是GPT-5.2和Gemini 3 Flash等顶尖模型,一次通过率也仅有23%-24%,揭示了从LLM到Agent跨越的严峻挑战。
这个数据的深层含义是:模型的能力进步是线性的,但从"回答问题"到"完成工作"的鸿沟是非线性的。 填补这条鸿沟的关键,不在于模型参数的进一步扩大,而在于围绕模型的工程化系统------也就是本报告的核心研究对象:Harness。
Harness Engineering(线束工程)这个术语在2026年初由OpenAI工程团队正式提出,指"设计环境、约束、反馈循环和基础设施以使AI Agent在规模化场景下可靠运行的工程学科",其内部系统据称用了超过一百万行代码来构建这套工程化体系。这标志着行业已经意识到:Agent的工程化难度,可能比模型本身更值得认真对待。
二、Agent工程化三要素:Harness、Skills、MCP
2.1 Harness:被"榨干"的Claude背后
Anthropic在2026年3月发布的工程博客《Harness Design for Long-Running Application Development》是理解这一趋势的关键文献。该团队的核心发现是:当AI开始连续数小时做设计、写代码、搭应用时,光靠模型本身已经不够了,需要一套专门为长程任务搭建的运行机制------什么时候拆任务、什么时候交接上下文、如何验证生成结果、上下文撑不住时如何压缩或重置,这些都属Harness设计的范畴。
在实践中,这个团队借鉴了GAN的思路,设计了一个由Planner(规划者)、Generator(生成者)和Evaluator(评估者)组成的三层Agent架构。最关键的经验是:最难的其实不是多加一个Agent,而是先把"评价标准"做出来------像"这个设计好不好看"这种主观判断,必须被拆解为具体、可评分的标准,否则评估环节就无从谈起。
Claude Code的源代码泄露事件(约1900个文件、超过51.2万行TypeScript代码)也验证了这一点。其架构核心被描述为"一个本地运行时外壳,把LLM包裹在工具、记忆和编排逻辑之中,让模型能在现实世界里行动"。更值得关注的是Claude Code的TAOR循环设计哲学:运行时越笨,架构越稳定。它只提供四种能力原语------Read、Write、Execute、Connect------而Bash则是通用适配器,允许模型通过shell组合使用任何人类开发者会用的工具。这种"把智能下沉到模型,把确定性留给框架"的思路,正在成为Harness设计的共识。
2.2 Skills:从"塞提示词"到"能力单元化"
如果说Harness解决的是"怎么让Agent持续做对事",那么Skills解决的就是"Agent能做什么事"以及"这些能力如何被组织"。
2025年底,Anthropic推出Agent Skills标准,以结构化文件夹为载体,将任务指令、代码能力与资源模块化封装,构建了一套标准化的"AI工作手册"。其核心创新在于"按需加载"的渐进式披露机制------Agent启动时只读取极简的能力索引,只有当用户输入真正匹配到某个场景时才加载完整定义。这种设计直接解决了传统Agent的"工具越多越笨"的悖论。
截至2026年2月初,公开可用的Agent Skills已超过85,000个,支持该标准的主流平台达27家,覆盖开发、设计、办公、电商、金融等领域。Linux基金会也已启动讨论,拟将Agent Skills纳入其AI & Data基金会的候选标准之一。Agent Skills被TechCrunch称为"AI领域的Dockerfile"------它让AI能力变得可移植、可组合、可版本控制。
Skills崛起的深层含义是:经验正在从"个人的Prompt调校技巧"沉淀为"可继承、可协作的工程资产"。 当一个团队把调试微信文章抓取这类特定场景的经验封装为Skill后,其他人无需重新踩坑,直接加载即可复用。
2.3 MCP:工具调用标准化的"爱恨交织"
Model Context Protocol(MCP)是Anthropic在2024年底推出的开放标准,旨在为AI模型连接外部工具、数据源和业务系统提供通用语言。到2026年3月,MCP的SDK月下载量已达约9700万次,被ChatGPT、Cursor、Gemini、Microsoft Copilot等主流AI产品广泛采用。
2026年1月,Anthropic将MCP捐赠给Linux基金会旗下的Agentic AI Foundation,与OpenAI的AGENTS.md和Block的goose项目共同构成这一新基金会的创始项目,标志着工具调用标准正式进入"机构化治理"阶段。
然而,MCP的标准化之路并非一帆风顺。2026年3月,AI搜索引擎龙头Perplexity公开宣布放弃MCP,回归CLI,引发"弃坑潮"。其技术负责人的核心批评是:MCP在上下文窗口中占用了大量Token(约50个工具的定义就会吃掉约20000 Tokens),导致模型"注意力全放在记工具名上",执行和推理能力严重受损。Y Combinator CEO Garry Tan甚至公开直言"MCP很烂"。
MCP的2026年路线图确定了四个优先发展领域:传输演进与可扩展性、智能体通信、治理成熟化和企业就绪性,正在积极解决生产环境中的痛点。这一争议恰恰说明了标准化协议的价值与复杂性------没有标准,生态碎片化;有了标准,还需持续演进。
三、AI OS:从框架到操作系统的跃迁
3.1 "龙虾"现象:浏览器之于互联网
OpenClaw(别称"龙虾")是2026年Agent爆发的标志性现象,GitHub星标突破33万+。英伟达CEO黄仁勋在GTC 2026大会上宣称:"每一家SaaS公司都将转型为AaaS(智能体即服务)"。他断言OpenClaw不是Agent框架,而是"操作系统"------OpenClaw与大模型的关系如同浏览器之于互联网。
这一类比揭示了Agent工程化正在经历的层级跃迁:Agent框架是"应用层",而Agent OS是"系统层" 。当软件不再由人编写,而是由AI Agent生成和执行时,操作系统这一层必须发生根本性变化。
3.2 Agentic OS与Qualixar OS:系统层的实践
2026年3月,阿里云正式推出面向AI Agent的新一代操作系统Agentic OS。其核心理念是:未来操作系统的主要用户将从人类转变为Agent。Agentic OS将运行时优化与安全执行环境内化为系统核心能力,将云基础设施最佳实践封装为开箱即用的Skills。在系统管理和运维场景中,相比传统OS环境可节省30%以上的Token开销;在CVE评估场景中,Token节省率可达60%。
学术界的进展同样引人注目。2026年4月,研究人员发布了Qualixar OS,这是首个应用层的通用AI Agent编排操作系统,支持10个以上的LLM提供商、8个以上的Agent框架和7种通信传输协议。其核心贡献在于解决了"异构多Agent系统"的通用运行环境问题------开发者用CrewAI构建的Agent,可以在Qualixar OS上与AutoGen框架的Agent无缝协同,无需重写代码。
操作系统层的演进传递了一个清晰的信号:基础设施的标准化正在从"应用层Harness"向"系统层Runtime"下沉,这将进一步加速Harness层面的工程化趋同。
四、框架之争的终结与同质化
4.1 五大框架的竞争格局
截至2026年3月,Agent框架格局在短短一年内从"众多实验品"收敛为"五个严肃平台",且均来自全球最大的科技公司:
- OpenAI Agents SDK:轻量级框架,围绕Agent、Handoffs、Guardrails、Tracing四个核心原语构建,支持超过100个LLM
- Google ADK:开源全栈框架,模型无关但针对Gemini和Vertex AI深度优化
- Microsoft Agent Framework:融合Semantic Kernel和AutoGen的统一运行时,整合企业级基础和多Agent编排
- NVIDIA NemoClaw:OpenClaw的企业扩展版,包含硬件优化推理、企业RBAC和签名Skill注册表
- LangChain生态系统(LangGraph + LangSmith):超过7000万月下载量,已在LinkedIn、Uber、JPMorgan等企业生产环境部署
值得注意的是,所有主流框架都已支持MCP、A2A等开放标准,在工具调用层实现了高度标准化。Microsoft Agent Framework的定位尤其能说明问题:它将Semantic Kernel的企业基础和AutoGen的多Agent编排模式统一到同一个运行时中,本质上是在做"Harness的工程化收敛"。
4.2 "同质化"的本质与陷阱
Traefik Labs的一篇分析文章标题直言不讳:"The Agent Framework Wars Are Over. Everyone Won. That's the Problem."文章指出,这些框架并非中性工具,而是"模型消费、云计算和推理收入的分配机制"------没有一家平台公司有动力让它们的框架与竞争对手互换,切换成本是商业模式的一部分。
这意味着,即便Harness层面在技术设计上趋同,商业层面的"生态锁定"将成为新的竞争维度。同质化不等于开放化------每个大厂都在用趋同的技术构建封闭的生态。这与云的竞争格局极为相似:AWS、Azure、GCP的技术栈本质上高度相似,但迁移成本高到足以让企业"选择一家、长期绑定"。
五、Manus的教训:为什么"先发"不一定是优势
5.1 昙花一现的全球首个通用Agent
Manus于2025年3月横空出世,作为全球首个通用AI Agent产品,其内测邀请码一度被炒至10万元天价。然而仅仅一年后,Manus的独立访客和访问时长持续走低,用户留存率长期低位,与开源的OpenClaw(龙虾)形成鲜明对比。
Manus的衰落揭示了几个结构性原因:
第一,没有自研基座模型。Manus底层完全依赖Claude和GPT-4等海外大模型API,被业内质疑为"套壳缝合怪"。在Harness成为可复用标准的时代,"只有Harness没有模型"的中间层护城河极浅。
第二,工程化能力被上游平台吞噬。Anthropic在2026年4月推出Claude Managed Agents,将开发者原本需要6-12个月工程工作的基础设施------Agent Harness、托管环境、内置工具、沙箱、安全执行、长任务运行------全部平台化,直接"腰斩"了中间层Agent创业公司的生存空间。这正是"平台吃掉中间层"的典型案例。
第三,战略上的自我边缘化。Manus从诞生起就刻意与国内市场切割,裁撤中国区业务近2/3,却没能真正打入海外主流市场,最终两头落空。
5.2 核心启示
Manus的案例说明了一个残酷的产业逻辑:在Agent时代,"先发"不如"深耕" 。当Harness成为基础设施层面的标准配置时,单纯在应用层做"模型套壳"的价值会被平台能力迅速蚕食。真正能穿越周期的,要么是掌握模型底座的厂商(如Anthropic、OpenAI),要么是在垂直场景中构建了深厚Skill积累和领域Know-how的团队。
正如Meta收购Manus揭示的产业逻辑:AI竞争的下半场将从"谁做出最强大模型"转向"谁最会整合模型、读懂用户、让市场决定产品长什么样"。但这句判断中隐含了一个前提------"整合模型"不等于"调用API",而是对整个技术栈的深度掌控。
六、趋势预判:从"模型能力"到"编排智慧"
基于以上分析,本报告对2026-2028年Agent工程化的演进方向提出以下预判:
6.1 短期(2026年):Harness工程化标准确立
Harness Engineering将从"各家的独门秘籍"走向"可复用的工程范式"。LangChain近期发布的Better-Harness框架已展示了这一趋势------该框架将评估数据作为Agent自我改进的训练信号,在Claude Sonnet 4.6和GLM-5上均实现了近乎完全的泛化效果。MCP的2026年路线图、Agent Skills的标准化推进,以及各大厂商的Agent OS实践,都将在本年度内形成初步的行业共识。
6.2 中期(2027年):Skill生态成为核心竞争维度
当Harness层面的工程化差异趋于收敛,竞争的焦点将上移至"谁拥有更丰富的可复用Skill生态"。这一判断基于两个并行趋势:一是开源Skill数量正在爆发式增长(目前超8.5万个),二是Linux基金会等标准组织的介入将推动Skill格式的跨平台兼容性。到2027年,一个类似"Docker Hub"或"VS Code Marketplace"的Skill交易市场很可能成型,Skill的开发、分发和商业化将成为新的产业环节。
6.3 长期(2028年及以后):OS层编排能力决定胜负
当Harness和Skill都成为基础设施级的标配后,最终的差异将回归到"对模型脾性的熟悉程度"和"Skill编排智慧"------这正是用户在前一轮讨论中敏锐捕捉到的关键。具体而言,竞争将从"有没有Skill"转向"如何高效组合、动态调度、实时纠偏",从"单Agent任务执行"转向"多Agent系统协同",从"对话式调用"转向"后台常驻、场景感知、主动建议"的更高交互范式。
这也意味着,未来的"AI OS玩家"需要解决的不只是工程问题,更是认知交互问题------如何在概率性智能成为系统内生组成部分后,重构传统建立在确定性假设之上的系统语义和可信边界。
七、结语:回归"人的价值"
在Harness趋同、Skill标准化、AI OS加速演进的背景下,一个值得深思的问题是:当AI基础设施像水和电一样普及时,什么才是不可替代的?
答案是:对领域问题的深度理解、对模型行为的敏锐洞察、对Skill编排的创造性设计。就像给一个设计师和普通人完全相同的Photoshop插件包,产出天差地别------不是因为工具不同,而是因为**"使用习惯"和"编排智慧"** 的差距。未来AI领域的核心竞争,将不再是"我装了哪些Skill",而是"我知道在什么时候、用什么方式、如何组合这些Skill,以及何时果断打断模型的错误循环"。
这也意味着,Agent时代的工程师角色正在发生根本性转变。Harness Engineer正在促使技术人员定位从"代码工程师"走向"使AI发挥最大效能的Agent管理者"。在AI OS的隐喻中,玩得溜的人,永远比别人更有优势。
参考文献
1\] 中信证券. 大模型密集迭代升级,关注模型原厂、AI应用、AI基础设施方向机遇. 2026-04-01. \[2\] 36氪. 从大模型到Agent的跨越难度,正被整个行业严重低估. 2026-04-10. \[3\] 中国证券报. AI大模型迎范式跃迁,智能经济打开广阔发展空间. 2026-03-25. \[4\] 新华社《环球》杂志. 2026:智能体爆发年. 2026-04-02. \[5\] Anthropic. Harness Design for Long-Running Application Development (Engineering Blog). 2026-03. \[6\] BAAI Hub. 看看Claude Code怎么做Harness,这才是Agent工程化的真正难点. 2026-04-03. \[7\] 36氪(海外). Anthropic Enters the Arena Personally: Another Batch of Agent Start-up Companies Bite the Dust. 2026-04-09. \[8\] 阿里云开发者社区. 别再给AI塞提示词了:Skill正在重塑Agent的能力边界. 2026-02-24. \[9\] 阿里云开发者社区. Agent Skills:打通可复用专业领域知识的最后一公里. 2026-04-02. \[10\] 阿里云开发者社区. 开源项目推荐:阿里云发布Agentic OS,首个面向Agent的操作系统. 2026-03-31. \[11\] TechBang. 再见MCP!Perplexity带头"弃坑". 2026-03-21. \[12\] IT Brief. Anthropic donates MCP to new Agentic AI Foundation. 2026-01-10. \[13\] The New Stack. MCP生产环境应用的最大痛点即将得到解决. 2026-03-27. \[14\] Traefik Labs. The Agent Framework Wars Are Over. Everyone Won. That's the Problem. 2026-03-24. \[15\] 36氪. 从最顶级的30个AI Agent产品里,看懂了这三个趋势. 2026-02-27. \[16\] 澎湃新闻. Manus为何错失Agent浪潮. 2026-03-28. \[17\] 极客邦科技. 中国软件技术发展洞察和趋势预测研究报告2026. 2026-02-09. \[18\] 36氪. 从助手到系统、从秀场到交付,AI产业的2026进化路径. 2026-01-20. \[19\] arXiv. Qualixar OS: A Universal Operating System for AI Agent Orchestration. 2026-04-07. \[20\] 统信软件. 三年三步:AI与操作系统的融合,走到哪一步了? 2026-04-09. \[21\] 腾讯新闻. Anthropic出手,补齐Agent当下的短板. 2026-01-16. \[22\] 21世纪经济报道. 大模型变现元年后,智能体会不会一地鸡毛? 2026-01-29.