Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
本报告介绍了 Kandinsky 5.0,这是一个面向高分辨率图像和 10 秒视频合成的尖端基础模型系列。该框架包含三大核心模型:Kandinsky 5.0 Image Lite(6B 参数的图像生成模型系列)、Kandinsky 5.0 Video Lite(轻量级 2B 参数文本到视频及图像到视频模型)以及 Kandinsky 5.0 Video Pro(19B 参数模型,具备卓越视频生成质量)。我们全面概述了多阶段训练流程中的数据管理生命周期(包括数据收集、处理、过滤与聚类),该流程涉及大规模预训练,并融合了自监督微调 (SFT) 和强化学习 (RL) 后训练等质量增强技术。同时,我们提出了新颖的架构、训练及推理优化方法,使 Kandinsky 5.0 能够实现高速生成,并在多种任务中达到领先性能(经人工评估验证)。作为公开可用的大规模生成框架,Kandinsky 5.0 充分发挥预训练及后续阶段的潜力,可广泛应用于各类生成场景。我们期望通过本报告及开源代码与训练检查点的发布,显著推动研究社区在高质量生成模型开发与普及方面的进展。
MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling
MiroThinker:通过模型、上下文与交互缩放突破开源研究智能体的性能极限
我们推出 MiroThinker v1.0,这是一个旨在提升工具增强推理与信息检索能力的开源研究智能体。与先前仅扩展模型规模或上下文长度的智能体不同,MiroThinker 在模型层面探索交互缩放,系统性地训练模型处理更深层、更频繁的智能体-环境交互,将其作为性能提升的第三维度。相较于孤立运行且易因长推理链导致性能下降的 LLM 测试阶段缩放,交互缩放通过环境反馈与外部信息获取来修正错误并优化行动路径。通过强化学习,该模型实现了高效交互缩放:在 256K 上下文窗口下,单个任务可执行多达 600 次工具调用,支持持续的多轮次推理与复杂现实研究工作流。在 GAIA、HLE、BrowseComp 和 BrowseComp-ZH 四个代表性基准测试中,72B 参数版本分别达到 81.9%、37.7%、47.1% 和 55.6% 的准确率,超越此前开源智能体,并逼近 GPT-5-high 等商业竞品。我们的分析表明,MiroThinker 始终受益于交互缩放:随着模型参与智能体-环境交互的深度与频率增加,研究性能呈现可预测的提升,证明交互深度具有与模型规模和上下文长度相似的缩放特性。这些发现确立了交互缩放作为构建下一代开源研究智能体的第三关键维度,与模型能力和上下文窗口形成互补。
P1: Mastering Physics Olympiads with Reinforcement Learning
大语言模型 (LLMs) 的最新进展已将研究前沿从谜题求解推进至科学推理------即处理那些答案必须与自然现象一致、而非仅符合评分标准的问题。物理学是这一转变的关键试金石,它以基本方式将符号与现实绑定,成为大多数现代技术的基石。在本工作中,我们通过开发具备卓越物理推理能力的大语言模型,成功推动了物理研究进展,尤其擅长解决奥林匹克级别的物理问题。我们推出了 P1 系列,这是一个完全基于强化学习 (RL) 训练的开源物理推理模型家族。其中,P1-235B-A22B 是首个在最新国际物理奥林匹克竞赛 (IPhO 2025) 中达到金牌水平的开源模型,并在 2024/2025 年度的 13 项国际/区域物理竞赛中斩获 12 枚金牌。P1-30B-A3B 同样在 IPhO 2025 上超越几乎所有其他开源模型,获得银牌。进一步结合 AI 智能体框架 PhysicsMinions,P1-235B-A22B+PhysicsMinions 在 IPhO 2025 中取得总排名第一,并在 13 项物理竞赛中获最高平均分。除物理领域外,P1 模型在数学、编程等其他推理任务上也表现优异,彰显了该系列的强大泛化能力。
Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
Souper-Model: 简单算术如何实现最先进的大语言模型性能
大语言模型 (LLMs) 已在众多领域展现出卓越能力,但其训练过程仍需要大量资源和时间,涉及巨大的计算开销以及对训练流程的精细管理。模型汤化 (Model souping) ------即平均相同架构的多个模型权重的实践------已成为一种有前景的训练前和训练后技术,能够在不进行昂贵重新训练的情况下提升模型性能。本文提出类别专家汤 (SoCE),一种系统性的模型汤化方法,该方法利用基准测试的构成来识别最优模型候选,并采用非均匀权重平均以最大化性能。与先前基于均匀平均的方法不同,我们的方法基于一个关键观察:基准测试的不同类别在模型性能上往往呈现低相关性。SoCE 为每个弱相关性类别集群识别"专家"模型,并通过优化的权重平均(而非均匀权重)进行组合。实验表明,该方法在多个领域(包括多语言能力、工具调用和数学推理)均提升了性能与鲁棒性,并在伯克利函数调用排行榜上取得了最先进的结果。
VIDEOP2R: Video Understanding from Perception to Reasoning
强化微调 (RFT) 是一种包含监督微调 (SFT) 和强化学习 (RL) 的两阶段框架,已在提升大语言模型 (LLMs) 推理能力方面展现出良好效果。然而,将其扩展至大型视频语言模型 (LVLMs) 仍面临挑战。本文提出 VideoP2R,一种过程感知的视频 RFT 框架,通过将感知与推理建模为独立过程来增强视频推理能力。在 SFT 阶段,我们构建了三步流程,生成高质量的过程感知思维链数据集 VideoP2R-CoT-162K,专门用于感知与推理任务。在 RL 阶段,我们引入了过程感知组相对策略优化 (PA-GRPO) 算法,该算法为感知和推理过程分别分配奖励。实验表明,VideoP2R 在七个视频推理与理解基准中的六个上达到了最先进水平。消融研究进一步验证了过程感知建模与 PA-GRPO 的有效性,并证明模型感知输出足以支撑下游推理任务。
Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data
Uni-MoE-2.0-Omni: 基于先进MoE、训练与数据的以语言为中心的全模态大模型规模化
我们推出荔枝 (Lychee) 系列中的 Uni-MoE 2.0。作为完全开源的全模态大模型 (Omnimodal Large Model, OLM) ,它在以语言为中心的多模态理解、推理和生成方面显著推进了荔枝 Uni-MoE 系列。基于 Qwen2.5-7B 的稠密架构 (dense architecture) ,我们通过三大核心创新从头构建了 Uni-MoE-2.0-Omni: 动态能力专家混合 (Mixture-of-Experts, MoE) 设计、采用迭代增强策略的渐进式训练方法,以及精心筛选的多模态数据匹配技术。该模型具备全模态理解能力,并能生成图像、文本和语音。在架构上,新型 MoE 框架通过共享专家、路由专家和空置专家平衡了 10 种跨模态输入的计算效率与能力,而全模态 3D RoPE (Rotary Position Embedding) 确保了自注意力层中的时空跨模态对齐。训练方面,在跨模态预训练后,我们采用渐进式监督微调策略激活模态特定专家,并通过平衡数据组合与迭代 GSPO-DPO 方法增强训练,以稳定强化学习 (Reinforcement Learning, RL) 过程并提升推理能力。数据层面,基础模型在约 750 亿 token 的开源多模态数据上训练,配备专用语音和图像生成 token,使其能够基于语言线索条件化输出来学习生成任务。在 85 个基准测试上的广泛评估表明,本模型在领先全模态大模型中达到最先进水平 (State-of-the-Art, SOTA) 或极具竞争力性能,在 76 个基准中的超 50 项上超越使用 1.2 万亿 token 训练的 Qwen2.5-Omni。核心优势包括视频理解 (8 项基准平均提升 7%) 、全模态理解 (4 项基准平均提升 7%) 和视听推理 (平均提升 4%) 。同时,它在长语音处理上取得进展 (词错误率, Word Error Rate, WER 降低 4.2%) ,并在底层图像处理与可控生成的 5 项指标中领先。
Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
Think-at-Hard:通过选择性隐式迭代提升推理语言模型性能
提升大语言模型 (LLMs) 的推理能力,特别是在参数约束条件下,对实际应用至关重要。现有研究提出了循环 Transformer 架构,为每个 Token 分配固定次数的额外迭代以提升生成质量。在完成首次标准前向传播后,该方法并非直接输出文本,而是将最后一层隐藏状态反馈至输入层进行额外迭代,以优化 Token 预测结果。然而我们发现存在隐式过度推理现象:首次传播后已预测正确的简单 Token,有时会在后续迭代中被错误修正。为此,我们提出 Think-at-Hard (TaH) 方法,通过动态隐式迭代机制,仅对困难 Token 进行深度迭代。该方法采用轻量级神经决策模块,仅在标准前向传播后可能预测错误的 Token 处触发隐式迭代。在隐式迭代过程中,低秩适应 (LoRA) 模块将 LLM 的目标从通用下一 Token 预测转向专注于困难 Token 的优化。我们还引入了双重因果注意力机制,将注意力范围从 Token 序列维度扩展至迭代深度维度。该设计在保持完全序列并行性的同时,实现了跨迭代的信息流动。实验表明,TaH 在五个高难度基准测试中显著提升 LLM 推理性能,且保持参数量不变。与对所有输出 Token 进行两次迭代的基线方法相比,TaH 在免除 94% Token 二次迭代的同时,准确率提升达 8.1-11.3%。相较于使用相同数据微调的强基线 Qwen3 单次迭代模型,准确率提升达 4.0-5.0%。当仅引入 LoRA 和迭代决策模块带来的不足 3% 额外参数时,准确率增益分别进一步提升至 8.5-12.6% 和 5.3-5.4%。代码已开源:github.com/thu-nics/Ta...
DoPE: Denoising Rotary Position Embedding
Transformer 模型中的旋转位置嵌入 (RoPE) 存在固有局限性,会削弱长度外推性能。我们将含位置编码的注意力图重新诠释为带噪声的特征图,并提出去噪位置编码 (DoPE),这是一种基于截断矩阵熵的无训练方法,用于识别特征图中的异常频带。利用特征图的噪声特性,我们进一步采用无参数高斯分布对其进行重参数化,以实现鲁棒的外推。本方法从理论上揭示了注意力下沉现象的成因及其与截断矩阵熵的关联。在"大海捞针"和多样本上下文学习任务上的实验表明,DoPE 在长上下文(最高 64K token)中显著提升了检索精度与推理稳定性。结果表明,位置嵌入的去噪策略有效抑制了注意力下沉现象,恢复了均衡的注意力分布,为改进长度泛化提供了一种简洁而高效的解决方案。项目页面详见:The-physical-picture-of-LLMs.github.io
Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks
视频模型在生成具有连贯运动动态的高保真视频方面取得了显著成功。类似于语言建模从文本生成发展到基于文本的推理,视频模型的进步促使我们思考:视频模型能否通过视频生成进行推理?与离散的文本语料相比,视频以明确的空间布局和时间连续性为基础,为空间推理提供了理想载体。在本工作中,我们探索了视频推理范式,并推出VR-Bench------一个系统评估视频模型推理能力的综合基准。该基准基于需要空间规划与多步推理的迷宫求解任务,包含7,920个过程生成视频,涵盖五种迷宫类型及多样视觉风格。实证分析表明,监督微调 (SFT) 能有效激发视频模型的推理能力。视频模型在推理过程中展现出更强的空间感知能力,其表现优于主流视觉语言模型 (VLM) ,且能适应不同场景、任务及复杂度级别。我们还发现了测试时扩展效应:推理阶段采用多样化采样可使推理可靠性提升10--20%。这些发现凸显了视频推理在空间推理任务中的独特潜力与可扩展性。
AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
AraLingBench:评估大语言模型阿拉伯语语言能力的人工标注基准
我们提出 AraLingBench:一个完全人工标注的基准,用于评估大语言模型 (LLMs) 的阿拉伯语语言能力。该基准涵盖五个核心类别:语法、词法、拼写、阅读理解和句法,通过 150 道专家设计的多项选择题直接评估结构性语言理解。对 35 个阿拉伯语和双语大语言模型的评估表明,当前模型虽然表现出较强的表面熟练度,但在深层语法和句法推理方面仍存在困难。AraLingBench 揭示了基于知识的基准测试高分与真正语言掌握能力之间的持久差距,证明许多模型的成功依赖于记忆或模式识别而非真正的理解能力。通过分离和测量基础语言技能,AraLingBench 为开发阿拉伯语大语言模型提供了诊断框架。完整评估代码已在 GitHub 平台开源发布。
Part-X-MLLM: Part-aware 3D Multimodal Large Language Model
我们提出了Part-X-MLLM,一种原生3D多模态大语言模型,通过将多样化的3D任务形式化为结构化、可执行语法中的程序,实现了统一处理。给定RGB点云和自然语言提示,模型以自回归方式生成单一、连贯的Token序列,其中包含部件级边界框、语义描述和编辑命令。这一结构化输出作为通用接口,可驱动下游几何感知模块执行部件级生成和编辑。通过将符号规划与几何生成解耦,本方法支持通过单一语言原生前端控制任何兼容的几何引擎。我们预训练了双编码器架构来分离结构与语义,并在大规模部件中心数据集上对模型进行指令调优。实验表明,该模型能高效生成高质量结构化规划,通过统一接口在接地问答、组合生成和局部编辑任务中实现了最先进的性能。项目页面:chunshi.wang/Part-X-MLLM...
Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
基于大型语言模型 (LLM) 的智能体通常采用强化学习 (RL) 进行训练,但其发展受限于对人工标注数据的依赖,这不仅制约了可扩展性,还将人工智能的能力局限于人类知识范畴。现有自我进化框架虽提供了替代路径,却常受限于模型固有能力与单轮交互机制,难以发展包含工具使用或动态推理的复杂训练课程。本文提出 Agent0------一个完全自主的框架,通过多步协同进化与无缝工具集成,无需外部数据即可培育高性能智能体。Agent0 在源自同一基础 LLM 的两个智能体间建立共生竞争机制:课程智能体负责设计难度递增的前沿任务,执行智能体则学习解决这些任务。通过集成外部工具增强执行智能体的解题能力,这种能力提升反过来驱动课程智能体构建更具复杂性且具备工具感知的新任务。在此迭代过程中,Agent0 形成自我强化的闭环,持续生成高质量训练课程。实验结果表明,Agent0 显著提升了推理能力,使 Qwen3-8B-Base 模型在数学推理基准上的性能提升 18%,在通用推理基准上提升 24%。代码发布于 github.com/aiming-lab/...
MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
MMaDA-并行:用于思维感知编辑与生成的多模态大扩散语言模型
尽管思维感知生成 (thinking-aware generation) 旨在提升复杂任务性能,但我们识别出一个关键失效模式:现有顺序自回归方法会因错误传播而反而导致性能下降。为系统性地分析该问题,我们提出了 ParaBench,这是一个新基准,用于评估文本和图像输出模态。基于 ParaBench 的分析表明,性能下降与生成推理和最终图像之间的对齐不佳高度相关。为解决此问题,我们提出并行多模态扩散框架 MMaDA-并行,该框架能在整个去噪轨迹中实现文本与图像间的连续双向交互。MMaDA-并行采用监督微调进行训练,并通过并行强化学习 (ParaRL) 进一步优化;ParaRL 是一种新策略,在轨迹上施加语义奖励以强化跨模态一致性。实验验证表明,我们的模型显著改善了跨模态对齐和语义一致性,在 ParaBench 上相比最先进模型 Bagel 实现了输出对齐 (Output Alignment) 6.9% 的提升,从而为思维感知图像合成建立了更鲁棒的范式。代码已开源:github.com/tyfeld/MMaD...
SAM 3D: 3Dfy Anything in Images
我们提出SAM 3D------一个基于视觉的三维物体重建生成模型,能够从单张图像预测几何结构、纹理贴图和空间布局。该模型在自然图像中表现卓越,尤其适用于存在遮挡和场景杂乱的场景,其中上下文提供的视觉识别线索发挥着更重要的作用。我们通过人机协同标注流程实现这一目标,该流程可标注物体形状、纹理和位姿,以前所未有的规模提供基于视觉的三维重建数据。我们采用现代化的多阶段训练框架,结合合成预训练与真实世界对齐,突破了三维数据的"数据壁垒"。与近期工作相比,我们取得了显著提升,在真实物体和场景的人类偏好测试中胜率至少达5:1。我们将公开代码与模型权重、在线演示平台,以及一个全新的真实场景三维物体重建基准测试集。
A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space
一种风格对应一个代码:利用离散风格空间实现代码到风格的图像生成
创新的视觉风格化是艺术创作的核心要素,但生成新颖且一致的视觉风格仍面临重大挑战。现有生成方法通常依赖冗长的文本提示、参考图像或参数高效微调来引导风格感知的图像生成,但往往难以保证风格一致性、创造力有限且风格表示复杂。本文通过引入代码到风格图像生成这一新任务,主张一种风格可由一个数值代码表征,该任务仅凭一个数值风格代码即可生成具有新颖、一致视觉风格的图像。目前,该领域主要由行业(如 Midjourney)主导探索,学术界尚无开源研究。为填补这一空白,我们提出了首个开源方法 CoTyle。具体而言,我们首先从图像集合中训练一个离散风格代码本,以提取风格嵌入。这些嵌入作为文本到图像扩散模型 (T2I-DM) 的条件,用于生成风格图像。随后,我们在离散风格嵌入上训练自回归风格生成器,建模其分布,从而能够合成新颖的风格嵌入。在推理阶段,数值风格代码通过风格生成器映射为唯一风格嵌入,该嵌入引导 T2I-DM 生成对应风格的图像。与现有方法相比,我们的方法具备无与伦比的简洁性和多样性,仅需极少输入即可解锁广阔的可复现风格空间。大量实验验证,CoTyle 能有效将数值代码转化为风格控制器,证实了一种风格确实对应一个代码。
GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning
大语言模型 (LLM) 已展现出作为重排序器的强大潜力,能够提升 RAG (Retrieval-Augmented Generation) 系统的整体性能。然而,现有重排序范式面临一个核心理论与实践困境:逐点 (Pointwise) 方法虽然简单灵活,但独立评估文档,容易陷入排名近视陷阱,忽略文档间相对重要性;而列表 (Listwise) 方法能感知全局排名上下文,却存在固有的列表刚性缺陷,导致处理大规模候选集时出现严重的可扩展性与灵活性问题。为解决这些挑战,我们提出分组 (Groupwise) 方法,一种新颖的重排序范式。该方法将查询与一组候选文档共同输入模型,通过组内比较为每个文档分配个体相关性分数。这一设计既保留了逐点方法的灵活性,又实现了列表方法的比较能力。我们进一步采用 GRPO (Groupwise Reinforcement Learning with Policy Optimization) 进行模型训练,并配备异构奖励函数,该函数整合了排名指标与旨在对齐跨组分数分布的分布奖励。为克服高质量标注数据稀缺的瓶颈,我们提出一种创新流程,用于合成高质量检索与排名数据。生成的数据不仅可用于训练重排序器,还能用于训练检索器。大量实验验证了本方法的有效性。在两个推理密集型检索基准 BRIGHT 和 R2MED 上的测试结果表明了其优越性能。
V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models
V-ReasonBench:面向视频生成模型的统一推理基准套件
生成式视频模型(如Veo-3)的最新进展展现了惊人的零样本推理能力,这催生了对系统化、可靠评估方法日益增长的需求。我们推出V-ReasonBench,这是一个旨在从四个关键维度评估视频推理能力的基准:结构化问题解决、空间认知、基于模式的推理和物理动力学。该基准基于合成与真实世界图像序列构建,提供了一系列多样化、答案可验证的任务,这些任务具有可重现性、可扩展性且无歧义。对六个前沿视频模型的评估显示出明显的维度间差异,在结构化、空间、基于模式和物理推理方面存在显著性能波动。我们进一步将视频模型与强图像模型进行对比,分析常见的幻觉(hallucination)现象,并探究视频持续时间如何影响帧链(Chain-of-Frames)推理。总体而言,V-ReasonBench提供了一个统一、可重现的框架来衡量视频推理能力,旨在支持开发具备更可靠、符合人类认知的推理技能的模型。
What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity
AI 研究智能体有望通过自动化机器学习模型的设计、实现与训练来加速科学进展。然而该领域尚处发展初期,决定智能体行为路径成败的关键因素仍未明晰。本文探究了构思多样性对智能体性能的影响机制。首先,我们在 MLE-bench(评估 AI 研究智能体的知名基准测试)上分析不同模型与智能体框架的行为轨迹,发现不同配置会产生不同程度的构思多样性,且性能更优的智能体通常表现出更高的构思多样性。进一步通过受控实验调整构思多样性水平,证实提升多样性可显著增强智能体性能。最后,我们超越 MLE-bench 基于奖牌评分的标准指标,通过多维度评估验证了研究结论在不同性能度量下的普适性。
First Frame Is the Place to Go for Video Content Customization
第一帧在视频生成模型中扮演着什么角色?传统观点认为,它仅是视频时空序列的起始点,作为后续动画生成的基础。在本研究中,我们提出了一个根本性的新视角:视频模型隐式地将第一帧作为概念记忆缓冲区,用于存储视觉实体并在生成过程中重复利用。基于这一发现,我们证明仅需20-50个训练样本,无需修改模型架构或进行大规模微调,即可在多种场景下实现鲁棒且具备强泛化能力的视频内容定制。这揭示了视频生成模型在基于参考视频的定制任务中一项强大而长期被忽视的潜力。
PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image
PhysX-Anything:从单张图像生成可直接仿真的物理属性3D资产
3D建模正从静态视觉表示转向具备物理属性的可关节化资产,这类资产可直接用于仿真与交互。然而,现有大多数3D生成方法忽略了关键的物理属性与关节结构,限制了其在具身AI中的应用。为弥补这一不足,我们提出PhysX-Anything------首个可直接仿真的物理3D生成框架,仅需输入单张真实场景图像,即可生成具有显式几何结构、关节系统和物理属性的高质量可仿真3D资产。具体而言,我们开发了首个基于视觉语言模型 (VLM) 的物理3D生成模型,并提出新型3D表征方法,可高效对几何结构进行标记化处理。该方法将标记数量压缩至原数量的1/193,使得在标准VLM标记容量内即可实现显式几何学习,无需在微调阶段引入特殊标记,显著提升了生成质量。此外,针对现有物理3D数据集多样性不足的问题,我们构建了PhysX-Mobility数据集,将原有物理3D数据集的物体类别扩展2倍以上,包含2000余个常见真实物体并附有详尽的物理属性标注。在PhysX-Mobility与真实场景图像上的大量实验表明,PhysX-Anything具有卓越的生成性能与强泛化能力。在MuJoCo风格环境中开展的仿真实验进一步验证,本方法生成的资产可直接用于高接触频率的机器人策略学习。我们相信PhysX-Anything将有力推动下游应用发展,尤其在具身AI与物理仿真领域。
Step-Audio-R1 Technical Report
近期推理模型通过扩展的思维链推理过程,在文本和视觉领域取得了显著成功。然而,音频语言模型中始终存在一个令人困惑的现象:它们在极少或无需推理的情况下表现更优,这引发了一个根本性问题------音频智能是否真能从深思熟虑的推理中受益?我们推出 Step-Audio-R1,这是首个成功在音频领域实现推理能力的音频推理模型。通过我们提出的基于模态的推理蒸馏 (MGRD) 框架,Step-Audio-R1 能够生成与音频相关的推理链,这些推理链真正扎根于声学特征,而非产生脱节的虚假推理。我们的模型展现出强大的音频推理能力,在涵盖语音、环境声音和音乐的综合音频理解与推理基准测试中,超越了 Gemini 2.5 Pro,并与最先进的 Gemini 3 Pro 性能相当。这些结果表明,当得到适当锚定时,推理是一种可跨模态迁移的能力,从而将扩展推理从劣势转化为音频智能的强大优势。通过成功构建首个音频推理模型,Step-Audio-R1 为开发真正跨所有感官模态进行深度思考的多模态推理系统开辟了新路径。