2026年，大模型训练的下半场属于「强化学习云」

2024 年底，硅谷和北京的茶水间里都在讨论同一个令人不安的话题：Scaling Law 似乎正在撞墙。

那时候，尽管英伟达的股价还在狂飙，但多方信源显示，包括彼时备受期待的 Orion（原计划的 GPT-5）在内，新一代旗舰模型在单纯增加参数规模和训练数据后，并未展现出预期的边际效益提升。另外，也有研究认为预训练所需的数据将会很快耗尽，其甚至还预测了明确的时间节点：2028 年。

来自论文 arXiv:2211.04325v2

OpenAI 和 Safe Superintelligence Inc 的联合创始人 Ilya Sutskever 当时还留下了一句意味深长的判词：「2010 年代是规模扩大的时代，现在人们又回到了奇迹和发现的时代。」这句话在当时被许多人解读为悲观的预警，也就是单纯依靠堆砌算力和数据的预训练路线，恐怕已经触到了天花板。

直到 2025 年初，接连的惊喜打破了僵局。

那时候，OpenAI 的 o1 模型已在几个月前率先引入了强化推理，展示了模型在思考时间换取智能深度上的惊人潜力，证明了 test-time scaling（测试时间扩展）是一条通往更高智能的可行路径。然而，o1 的闭源特性让这项技术一度被视为只有巨头才能掌握的「黑科技」。

2025 年 1 月横空出世的 DeepSeek R1 将 o1 的技术路线成功复现并彻底开源。它的意义不在于从零发明，而是用极低的成本和开放的姿态向全行业证明：Scaling Law 并没有撞墙，它只是换了引擎。

DeepSeek R1 等推理模型的成功揭示了一个事实：深度的推理能力比单纯的参数规模更关键。通过强化学习（RL）驱动的思维链（CoT），模型在后训练阶段展现出了类似于人类「慢思考」的推理能力。

DeepSeek-R1 的多阶段训练流程，来自 arXiv:2501.12948v2

正如九章云极 DataCanvas AI 首席科学家缪旭在 2025 算力生态大会上回顾的那样：「DeepSeek 的横空出世，让我们第一次感觉到，原来强化学习可以让大模型的进化速度再次提升。」对于更广泛的开发者而言，这种「感觉」正是源于 DeepSeek 拉低了技术门槛。

看起来，算力的重心正从 pre-training scaling（预训练扩展）走向 post-train scaling（后训练扩展）和 test-time scaling（测试时间扩展）。

来自英伟达博客

在 2026 年的今天，我们已经可以确信：大模型训练的下半场属于强化学习。

在这个阶段，模型不再仅仅是基于海量预训练数据的概率涌现，而是能像人类专家一样，通过与环境的交互、试错和自我博弈，进行深度的逻辑推演。

如果说预训练是培养一个通识教育的毕业生，那么基于 RL 的后训练就是将其投入真实世界，进化成一名真正的专家。然而，新的机遇也带来了新的基建危机：当算力的消耗重心从静态的训练转向动态的探索与推理，现有的云计算架构开始显得力不从心。

行业呼唤一种全新的算力形态，去承载这种以「进化」为核心的新智能。而在这一轮基础设施的代际更迭中，谁能率先定义这种形态，谁就能握住下一个时代的入场券。

基于这一观察，缪旭在演讲中抛出了一个定义未来的公式：「当智能可以并行进化，强化学习云将成为群体智能的放大器。」

这里的关键词「强化学习云」，正是九章云极为应对这场范式转移给出的基础设施答案。作为独立智算云赛道的领军企业，九章云极不仅首先提出了这一概念，更通过前瞻性的布局，率先定义了后训练时代的算力标准。

首发优势

为什么九章云极能定义「强化学习云」？

如果说 OpenAI o1 验证了路径，DeepSeek R1 引爆了热潮，那么九章云极则是在最短时间内率先给出了基础设施答案。

仅仅数月后的 2025 年 6 月，九章云极便正式发布了业界首个工业级强化学习云平台 Agentic RL。

而当时，放眼全球，尽管以 Anyscale (Ray) 为代表的硅谷先驱已经在分布式计算框架层面为强化学习提供了底层支持，AWS、谷歌等云巨头也已将 RL 视为通用机器学习平台（如 SageMaker、Vertex AI）下的一个功能组件或工具包，但整体上主流市场的目光仍主要聚焦于如何构建更大的预训练集群或降低传统推理（inference 而非 reasoning）成本，尚未有任何一家企业像九章云极这样，敏锐地洞察到智能体（Agent）时代的算力特征变革，并将「强化学习」独立定义为一种全新的工业级云服务形态。

这种能够迅速捕捉前沿算法趋势，并率先将其转化为标准化、工业级云产品的能力，正是九章云极在独立智算云赛道中确立首发优势与领军地位的基础。

为什么我们需要专门的强化学习云？

传统的云计算架构，本质上是为静态负载设计的。无论是 Web 服务还是传统的深度学习推理（inference），其计算特征相对线性且可预测。但强化学习截然不同，它是一个高频交互、动态探索的过程。智能体需要在模拟环境中进行海量的试错，而这会导致算力需求呈现出剧烈的波峰波谷特征，且对异构资源的调度有着极高的要求。

如果用传统的静态算力去跑 RL 训练，结果要么资源利用率极低，要么在探索高峰期直接卡死。

针对这一痛点，九章云极并没有选择在旧架构上打补丁，而是进行了系统级的重构。其强化学习云 Agentic RL 基于混合专家（MoE）架构与 Serverless 理念，实现了算力的「按需即取、即用即还」。

数据显示，相比于传统方案，Agentic RL 可将端到端训练效率提升 500%，综合成本下降 60%。更关键的是，它是全球首个支持万卡级异构算力调度的强化学习基础设施平台。这种对大规模异构算力的驾驭能力，标志着九章云极已经率先完成了从「卖资源」到「卖能力」的进化。

Agentic RL：让通用模型变成专家

顾名思义，Agentic RL 的核心是 Agentic（智能体）和 RL（强化学习）。但 Agentic RL 并不只是智能体与强化学习的简单叠加，其内涵蕴涵了 AI 能力维度的一次关键跃迁：从单纯的「内容生成」转向复杂的「决策控制」。

在这里，「控制」尤为关键。在九章云极看来，无论是供应链的动态调度，还是工业设计的精密规划，本质上都是一个高难度的控制问题。Agentic RL 的核心目标，正是通过 RL 赋予大模型这种在动态环境中精准感知、规划并执行的能力，使其从单纯的语言专家进化为能解决实际物理世界难题的执行者。

正是为了支撑这种「从生成到控制」的能力跨越，在 2025 算力生态大会上，九章云极 AI 首席科学家缪旭进一步展示了其强化学习云背后的 Agentic RL 技术架构。

简单来说，Agentic RL 的使命是将通用模型进化为专家模型，其应具备长时程规划、长/短期记忆、复杂工具调用、检索增强生成优化、角色一致性等多种能力。

基于此，缪旭提出了一个更宏大的终局构想：未来的通用人工智能（AGI）可能不会是一个单一的巨型模型，而是由成千上万个垂类专家智能体组成的「群体智能」。

不同于传统的强化学习，面向群体智能的 Agentic RL 面对的是极度复杂的目标，比如城市规划的长时序约束，或工业设计的精密系统组合。为了支撑这种高难度的进化，九章云极构建了一些核心技术，包括：

极致效能的异步系统：针对 RL 训练中极不稳定的负载特征，九章云极研发了全异步训练架构，通过 rollout 和 n+1 模型更新机制，成功将 GPU 利用率长期保持在 95% 以上。在算力昂贵的今天，这种工程优化直接等同于巨大的成本优势。
5 倍速的离线进化：针对强化学习样本利用率低的顽疾，九章云极采用了「基于回放的离线强化学习算法」。通过对时间跨度的压缩与样本的高效回放，实现了 5 倍于传统方法的训练速度提升。

安全探索的「世界模型」：在自动驾驶或医疗等「不能失败」的领域，九章云极与高校合作构建了可控的世界模型。它就像一个高保真的虚拟沙盒，让智能体在其中放手试错，解决现实世界「不敢探索」的难题。

Alaya NeW Cloud 的全栈重构

九章云极强化学习云很强，这离不开其精心构建的 Alaya NeW Cloud 智能基础设施。

不同于传统云厂商在通用云上「打补丁」的做法，九章云极从一开始就围绕智能体的运行逻辑，完成了从底层基础设施到上层应用的四层全栈重构。

除了底层技术的突破，九章云极在工程化落地层面也展现出了惊人的敏捷性。为了让最前沿的模型能力即刻触达用户，平台实现了云容器实例 (CCI) 的一键式部署，全流程覆盖，即开即用。以 2025 年终压轴上线的满血版 DeepSeek-3.2 为例，在高端算力卡的加持下，其部署速度更快，运行更高效，完美诠释了平台对最新 SOTA 模型的快速支持能力。

整体看来，在这个智能体时代，九章云极扮演的角色不再仅仅是互联网数据中心（IDC）提供商，更是进化环境提供商。

对于开发者：只要极少代码即可启动完整的「训练-推理-回传」闭环。
对于产业：无论是城市规划、工业制造还是自动驾驶，每一个垂直领域的智能体都能在九章智算云上找到专属的进化路径。

在黄山

打造城市级智算样板

技术领先只是起点，能否在复杂的真实物理世界中落地，才是检验「领军者」成色的试金石。

当大多数智算中心还停留在「建机房、堆显卡」的 1.0 阶段，九章云极已经率先在安徽黄山跑通了「智算+产业」的 2.0 闭环。这里不仅有一座算力中心，更有一个正在运行的、基于强化学习云的城市级实验样本。

48 天奇迹，这就是九章速度

在黄山，九章云极创造了一个行业纪录：48 天。

是的，仅仅 48 天，一座规模达 500 PFLOPS 的「大位」智算中心便拔地而起并投入运营。

这种令人咋舌的交付速度，不仅源于九章云极成熟的工程化能力，更验证了其智算操作系统在异构算力调度上的极致效率。

当强化学习走进「全程 AI 伴游」

「大位」智算中心绝非一座冰冷的机房，它是国内首个「文旅+AI」城市级产业应用基础设施。

在这里，九章云极的强化学习技术找到了最复杂的演练场：人类社会互动。依托算力底座，黄山实现了国内首个「全程 AI 伴游」景区。成千上万个智能体正在这里学习如何理解游客的意图、规划最优路线、处理突发状况。

这实际上是一场大规模的 Agentic RL 社会实验。每一个游客的反馈，都是一次 Reward（奖励）；每一次路线规划，都是一次 Policy（策略）更新。这种在真实高频场景中打磨出的智能进化能力，远比实验室里的数据更具商业价值。

智算经济：不仅是投入，更是增长引擎

对于城市管理者而言，智算中心往往面临「建得起、用不起」或「不仅烧电、还烧钱」的质疑。九章云极则用数据打破了这一魔咒。

在本次大会发布的《2026 智算赋能城市产业发展白皮书》中，黄山被定义为「中小城市智算赋能标杆」。易观分析预测，随着「大位」智算中心的全面达产，每年将直接带动黄山市营利性服务业增加值增长不少于 2 亿元。

这一实战成果，正如九章云极董事长方磊在大会现场所下的判断：「全球 AI 基建正重构生产力底座，算力核心价值在于普惠与落地效能。」黄山模式的成功，正是这一理念的最佳注脚。

通过「智算基建+文旅赋能+场景落地+商业闭环」，九章云极证明了强化学习云不仅能消耗电力，更能生产 GDP。

这种「黄山样板」正在产生强大的磁吸效应。大会现场，中科动力、百鹏互联、歌歌 AI 等 6 家 AI 企业集中签约落地。它们看中的，正是九章云极所构建的这个既有算力底座、又有丰富场景的智算生态。

从技术上的「定义者」到商业上的「破局者」，九章云极用黄山的实践告诉市场：下一代智算云，必须是能直接驱动产业增长的云。

终局思维

独立智算云赛道的「头号玩家」

在 AI 基础设施的牌桌上，玩家虽多，但位置截然不同。有的在做「全能选手」（既做模型又做云），有的在做「卖水人」（只卖裸金属）。而九章云极选择了一条更为艰难、却也更为辽阔的道路：做独立智算云赛道的领军者。

独立：真正开放生态的基础

在「百模大战」向「千行百业」转型的今天，企业的顾虑显而易见：如果我把核心业务数据交给一个同时也做大模型的云厂商，它会不会既是裁判又是运动员？

这就是「独立智算云」存在的根本逻辑：中立性。

九章云极明确了自己的边界：不与客户争利，不绑定特定模型。

这种「独立性」在算力高度集中的当下显得尤为珍贵。针对目前行业内只有不到 10 家巨头公司掌握 10 万卡以上资源的现状，九章云极明确倡导「开源 1000 专家模型」。

他们期望通过动态组合来放大群体智能，为那 10 万家中小企业提供高效的智能化解决方案，让每一个垂直领域的 Agent 都能在九章智算云上找到专属的进化路径。

这种「独立智算云+开源专家模型」的组合拳，彻底区别于那些试图绑定自家闭源大模型的巨头云厂商，使其更有可能成功构建起真正的开放生态。

正如其发起的 AI-STAR 企业生态联盟，并没有排他性的门户之见，而是连接了上游芯片厂商与下游应用厂商，共同组成了一个自主可控的产业链闭环。

领军：从卖算力到定标准

何为领军？不仅是规模最大，更是掌握定义规则的权力。

在算力计费混乱的草莽时代，九章云极率先推出了「1 度算力」的普惠化标准，试图让算力像水电一样可度量、可流通。

而在后训练时代，九章云极再次通过强化学习云定义了下一代基础设施的标准架构：一套包含 Agentic RL 技术架构、Serverless 弹性调度和异构资源管理在内的完整操作系统。

这正是九章云极区别于普通云厂商的核心标志。

以领军之姿

为企业打造进化引擎

2026 年，当我们谈论云计算时，语境已经变了。

如果说过去十年的云计算是「能源时代」，厂商们比拼的是谁的电费更便宜；那么未来的十年，我们将进入「进化时代」，竞争的焦点是谁能让智能体进化得更快、更强。

作为独立智算云赛道的领军企业，九章云极通过首创的强化学习云 Agentic RL，已经率先拿到了通往这个新时代的钥匙。它不仅仅是在提供算力，更是在为在这个星球上即将涌现的无数硅基智能体，提供进化的源动力。

在黄山的数据中心里，成千上万个智能体正在 7x24 小时地自我博弈。对于九章云极而言，这个关于「进化」的故事才刚刚开始。