首个代码世界模型引爆AI圈,能让智能体学会「真推理」,Meta开源

大模型的架构,要彻底进化了?

昨晚开始,AI 圈都在研究一个神奇的新物种 ------Code World Model(CWM)。

Meta 重组后的 AI 部门推出的首个重磅研究,是一个世界模型,用来写代码的。

它和「传统」的大语言模型(LLM)思路不同,理论是这样的:

当人类进行计划时,我们会在脑海中想象不同行动可能带来的结果。当我们推理代码时,我们会在心中模拟其部分执行过程。当前一代的大语言模型在这方面表现不佳,往往难以做到真正的推理和模拟。那么,一个经过显式训练的代码世界模型(Code World Model)是不是能够开启新的研究方向呢?

Meta 刚发布的这个 CWM,是一个 320 亿参数的开放权重 LLM,以推动基于世界模型的代码生成研究。

CWM 是一个稠密的、仅解码器结构的 LLM,支持最长 131k tokens 的上下文长度。独立于其世界建模能力,CWM 在通用编程与数学任务上表现出强大性能:

  • SWE-bench Verified(含测试时扩展):pass@1 65.8%

  • LiveCodeBench:68.6%

  • Math-500:96.6%

  • AIME 2024:76.0%

可见,虽然 CWM 的绝对性能还不算太高,但它在 30B 级别模型的横向对比上性能已算不错。

SWE-bench Verified pass@1 分数

为了提升代码理解能力,而不仅仅局限于从静态代码训练中学习,Meta FAIR CodeGen 团队在 Python 解释器和智能体式 Docker 环境中使用了大量观测 - 动作轨迹进行中间训练(mid-train),并在可验证编码、数学和多轮软件工程环境中进行了大规模多任务推理强化学习(RL)。

为支持进一步的代码世界建模研究,Meta 开放了模型在 中间训练(mid-training)、SFT 和 RL 阶段的检查点。

借助 CWM,Meta 提出了一个强大的测试平台,以探索世界建模在改进代码生成时的推理与规划能力方面的机会。

该研究展示了世界模型如何有益于智能体式编码,使得 Python 代码执行能够逐步模拟,并展示了推理如何从这种模拟中受益的早期结果。

在该研究中,Meta 似乎从传统开发的过程中汲取了灵感。优秀程序员会在上手写代码之前先在脑内推演,而现在基于大语言模型的代码生成工具,是在基于海量数据生成对相关代码的「模仿」。看起来像是对的,和真正理解写出的代码之间总会有点 gap。

一个明确训练的代码世界模型,应该能够预测自己行为的后果,进而作出判断实现有效的决策。

有一个很有意思的例子,大模型总是会犯些低级错误,比如数不清楚「strawberry」里有几个「r」

而采用 CWM,就可以对一段统计 "strawberry" 中字母 "r" 的代码执行过程进行追踪。可以将其类比为一个神经版的 pdb ------ 你可以将其设置在任意初始帧状态下,然后推理过程就能够在 token 空间中调用这一工具来进行查询。

CWM 的 Python 跟踪格式。 在给定源代码上下文与跟踪起始点标记的情况下,CWM 预测一系列的调用栈帧,表示程序状态及相应的执行动作。

CWM 模型基于大量编码数据和定制的 Python + Bash 世界建模数据进行训练,使其能够模拟 Python 函数的执行以及 Bash 环境中的智能体交互。

在 Meta 进行的更多实验中,CWM 在有无测试时扩展(tts)的情况下均达到了同类最佳性能,分别取得了 65.8% 和 53.9% 的成绩。需要注意的是,GPT-oss 的分数是基于 500 道题中的 477 道子集计算得出的。

CWM 与基线模型在 Aider Polyglot 上的结果,取自官方排行榜。

在 SWE-bench Verified 上,结合本文提出的 best@k 方法与多数投票(majority voting)的测试时扩展(TTS),能够显著提升 CWM 的 pass@1 得分,如图(a)所示。

在 Aider Polyglot 基准上,采用整文件编辑格式(whole file edit format)时,CWM 在不同编程语言上的准确率表现如图(b)所示。

Terminal-Bench 上 CWM 与各基线模型的结果,取自官方排行榜。

BigOBench 结果

在时间与空间复杂度的预测和生成两类任务上,将 CWM 与 Qwen3-32B(带推理能力)、Qwen3-coder-30B 以及 Gemma-3-27B 进行了对比。在时间复杂度预测与生成的全部指标上,CWM 均超越了基线模型。在空间复杂度生成方面,CWM 在仅代码模式下的 pass@1 上取得最佳成绩,并在其余指标中排名第二。

Meta 团队的愿景是让代码世界模型弥合语言层面的推理与可执行语义之间的鸿沟。

消融实验已经表明,世界建模数据、Python 执行轨迹以及可执行的 Docker 环境,能够直接提升下游任务表现。更广泛地说,CWM 提供了一个强有力的试验平台,支持未来在零样本规划、具身的链式思维、以及稀疏且可验证奖励的强化学习等方向的研究。

世界模型应当能够改进强化学习,因为那些已经熟悉环境动态的智能体,可以更专注于学习哪些动作能够带来奖励。尽管如此,要在预训练阶段跨任务地持续发挥世界模型的优势,仍需要进一步研究。最终,能够推理自身动作后果的模型,将在与环境的交互中更为高效,并有望扩展其能够处理的任务复杂度。

更多细节,请参阅原论文。

相关推荐
深兰科技几秒前
廊坊市市长刘媛率队到访深兰科技,推动机器人制造基地与产业投资落地
人工智能·科技·机器人·scala·symfony·深兰科技·廊坊市市长刘媛
沫儿笙2 分钟前
发那科机器人在氩弧焊中搭配节气装置的优势
人工智能·机器人
m0_650108244 小时前
【论文精读】CMD:迈向高效视频生成的新范式
人工智能·论文精读·视频扩散模型·高效生成·内容 - 运动分解·latent 空间
电鱼智能的电小鱼4 小时前
基于电鱼 AI 工控机的智慧工地视频智能分析方案——边缘端AI检测,实现无人值守下的实时安全预警
网络·人工智能·嵌入式硬件·算法·安全·音视频
年年测试4 小时前
AI驱动的测试:用Dify工作流实现智能缺陷分析与分类
人工智能·分类·数据挖掘
唐兴通个人5 小时前
人工智能Deepseek医药AI培训师培训讲师唐兴通讲课课程纲要
大数据·人工智能
共绩算力6 小时前
Llama 4 Maverick Scout 多模态MoE新里程碑
人工智能·llama·共绩算力
DashVector6 小时前
向量检索服务 DashVector产品计费
数据库·数据仓库·人工智能·算法·向量检索
AI纪元故事会6 小时前
【计算机视觉目标检测算法对比:R-CNN、YOLO与SSD全面解析】
人工智能·算法·目标检测·计算机视觉
音视频牛哥6 小时前
从协议规范和使用场景探讨为什么SmartMediaKit没有支持DASH
人工智能·音视频·大牛直播sdk·dash·dash还是rtmp·dash还是rtsp·dash还是hls