性能比肩 DeepSeek-R1,MiniMax 仅花 380 万训出推理大模型性价比新王|开源

国产推理大模型又有重磅选手。

MiniMax 开源 MiniMax-M1,迅速引起热议。

这个模型有多猛?直接上数据:

  • 原生支持 100 万 token 的输入长度,是 DeepSeek R1 的约 8 倍。

  • 同时支持 8 万输出 token,超过 Gemini 2.5 Pro 的 6.4 万,成为世界最长输出。

  • 生成 10 万 token 时,推理算力只需要 DeepSeek R1 的 25%。

MiniMax 团队透露,只用了 3 周时间、512 块 H800 GPU 就完成强化学习训练阶段,算力租用成本仅 53.47 万美元(约 383.9 万元)。

不仅如此,在多个基准测试上 MiniMax-M1 的表现可比或超越 DeepSeek-R1、Qwen3 等多个开源模型,在工具使用和部分软件工程等复杂任务上甚至超越了 OpenAI o3 和 Claude 4 Opus。

MiniMax-M1 实战表现如何?官方给出了一句话生成迷宫小游戏的 Demo。

创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化 A* 算法的求解过程。使用画布和动画,使其具有视觉吸引力。

视频详情

目前模型权重已可在 HuggingFace 下载,技术报告同步公开。

同时已集成到 MiniMax Chat 网页版,可在线试玩。

混合注意力架构

MiniMax-M1 一大技术亮点是采用了 Lightning Attention 机制的混合注意力架构。

传统的 Transformer 架构有个致命缺陷:计算复杂度是平方级,这意味着当模型进行更长的推理时,计算成本会急剧上升。

虽然之前有各种优化方案,比如稀疏注意力、线性注意力等,但在大规模推理模型上都没有得到充分验证。

Lightning Attention 最早由上海 AI Lab 团队提出,此前已应用到 MiniMax-01 模型中。

具体来说,Lightning Attention 把注意力计算分成块内和块间两部分,块内用传统注意力计算,块间用线性注意力的核技巧,避免了累积求和操作(cumsum)拖慢速度。

Lightning Attention 还采用了分块技术(tiling)充分利用 GPU 硬件,让内存使用更高效,训练速度不随序列长度增加而变慢。

MiniMax-M1 这次是在每 7 个 Lightning Attention 的 Transnormer 块后接 1 个传统 Softmax Attention 的 Transformer 块。

这种设计理论上可以让推理长度高效扩展到数十万个 token。

更多 Lightning Attention 的介绍,可以看量子位与 MiniMax 高级研究总监钟怡然的对话:

MiniMax 押注线性注意力,让百万级长文本只用 1/2700 算力|对话 MiniMax-01 架构负责人钟怡然

强化学习 CISPO 算法

除了架构创新,MiniMax 团队在提升训练效率上也有新招。

他们发现,传统的 PPO/GRPO 算法在处理混合架构时会出现严重问题。具体来说,那些对推理至关重要的 "反思"token(如 However、Wait、Aha 等)通常概率很低,在策略更新时很容易被裁剪掉,导致模型无法学会长链推理。

为此,团队提出了全新的 **CISPO(Clipped IS-weight Policy Optimization)**算法。

与传统方法裁剪 token 更新不同,CISPO 选择裁剪重要性采样权重,这样可以保留所有 token 的梯度贡献,特别是在长响应中至关重要。

在基于 Qwen2.5-32B 模型的对照实验中,CISPO 不仅显著超越了 GRPO 和 DAPO,还实现了 2 倍的训练加速,也就是用一半的训练步数就能达到 DAPO 的性能。

当然,将强化学习扩展到这种混合架构并非一帆风顺。团队遇到了一系列独特挑战,比如训练和推理内核之间的精度不匹配问题。他们发现 LM Head 的高幅度激活是误差的主要来源,通过将输出头的精度提升到 FP32,成功将训练和推理概率的相关性从 0.9x 提升到 0.99x。

此外,他们还开发了基于 token 概率的早停机制,当连续 3000 个 token 的概率都超过 0.99 时就终止生成,有效防止了模型陷入重复循环。

MiniMax-M1 的成功还离不开精心设计的训练流程。

首先,团队在 MiniMax-Text-01 的基础上继续预训练了 7.5 万亿 token,重点强化了 STEM、代码和推理相关内容,占比提升到 70%。接着进行监督微调,注入链式思考(CoT)模式,为强化学习打下基础。

在强化学习阶段构建了丰富的训练环境。

对于可验证的任务,不仅包含了数学推理和竞赛编程,还利用 SynLogic 框架合成了 41 种逻辑推理任务的 5.3 万个样本。以及构建了基于 SWE-bench 的真实软件工程环境,让模型在沙箱中实际执行代码,通过测试用例的通过率作为奖励信号。

对于无法用规则验证的通用任务,使用生成式奖励模型来提供反馈,特别关注了奖励模型的长度偏见问题,也就是模型可能会为了获得高分而生成冗长但无实质内容的回答。通过在线监控和动态调整,成功避免了这种" 奖励黑客" 行为。

上下文窗口的扩展则使用阶段性扩展策略,从 4 万逐步增加到 4.8 万、5.6 万、6.4 万、7.2 万,最终达到 8 万,每个阶段都要等到困惑度收敛且 99 分位输出长度接近当前限制时才进入下一阶段。

最终,MimiMax-M1 在数学推理、长上下文理解、工具使用和软件工程等多个领域表现出色,完整评估结果如下:

One More Thing

在 MiniMax 官方发布公告中透露,这只是为期 5 天的 "MiniMaxWeek" 活动的第一天。

随后海螺 AI 账号也确认即将推出更多内容。

顺着这个线索,我们发现 Hailuo 02 视频模型出现在 AI 视频竞技场中,已迅速来到图生视频排行榜第二。

关于 Hailuo 02 和 MiniMax 将在一周内发布的其他内容,量子位也会持续关注。

在线试玩:
chat.minimax.io

GitHub:
github.com/MiniMax-AI/...

HuggingFace:
huggingface.co/collections...

论文:
github.com/MiniMax-AI/...

参考链接:

1\][x.com/MiniMax__AI...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FMiniMax__AI%2Fstatus%2F1934637031193514237 "https://x.com/MiniMax__AI/status/1934637031193514237") \[2\][artificialanalysis.ai/text-to-vid...](https://link.juejin.cn?target=https%3A%2F%2Fartificialanalysis.ai%2Ftext-to-video%2Farena%3Ftab%3Dleaderboard%26input%3Dimage "https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard&input=image") --- **完** ---

相关推荐
顾林海6 小时前
DeepSeek 技术原理详解
深度学习·llm·deepseek
机器之心14 小时前
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
人工智能·deepseek
陈佬昔没带相机2 天前
基于 open-webui 搭建企业级知识库
人工智能·ollama·deepseek
Jet45052 天前
玩转ChatGPT:DeepSeek实战(核酸蛋白序列核对)
人工智能·chatgpt·kimi·deepseek
摘星编程3 天前
华为云Flexus+DeepSeek征文 | 模型即服务(MaaS)安全攻防:企业级数据隔离方案
大数据·人工智能·安全·华为云·deepseek
全栈小53 天前
【C#】Quartz.NET怎么动态调用方法,并且根据指定时间周期执行,动态配置类何方法以及Cron表达式,有请DeepSeek
c#·.net·quartz.net·deepseek
山有木兮木有枝_3 天前
AI大模型幻觉问题的函数调用解决方案:DeepSeek 实战解析
前端·人工智能·deepseek
—Qeyser3 天前
让 Deepseek 写电器电费计算器小程序
ai·chatgpt·小程序·deepseek
Just_Paranoid4 天前
华为云Flexus+DeepSeek征文 | 基于Dify构建网站智能客服
华为云·智能客服·maas·deepseek·flexusx