腾讯：原生多模态建模路线图

📖标题：Toward Native Multimodal Modeling: A Roadmap

🌐来源：arXiv, 2605.25343v1

🛎️文章简介

🔸研究问题：如何定义并系统化从晚期融合向原生多模态建模（NMM）的架构转型，以解决当前设计空间碎片化及缺乏统一标准的问题？

🔸主要贡献：论文提出了NMM的形式化定义与分类体系，并提供了涵盖架构、数据、训练、推理及评估的全栈工业级技术路线图。

📝重点思路

🔸形式化定义原生性：区分中期融合（保留模态边界但深层交互）与早期融合（统一嵌入空间，所有模态等价处理），排除仅靠投影器连接的晚期融合非原生范式。

🔸功能分类体系：基于输入输出对偶性，将现有模型分为三类：多到文本（M2T，侧重理解推理）、多到目标（M2G，侧重特定模态生成如音视频）、多到多（M2M，对称建模，理解与生成共存）。

🔸全栈技术拆解：系统梳理了从架构协调（如离散化统一或保留模态特异性）、大规模异构数据策展（理解/生成/交互/偏好数据混合）、分阶段训练策略（预训练冻结拓扑、SFT重布线、RL范围界定）到推理部署（长上下文压缩、流式全双工）的关键技术瓶颈与解决方案。

🔸评估与展望：建立了跨模态理解与生成的综合评估基准，并指出未来应向架构收敛、自生成数据流、联合训练配方及原生世界模型方向演进。

🔎分析总结

🔸架构演进趋势：早期融合通过统一Transformer实现真正的模态协同，但需解决离散化信息损失及不同模态在统一Softmax下的竞争问题，Z-loss和QK-Norm成为稳定训练的必要条件。

🔸训练策略差异：中期融合依赖差异学习率和解耦损失来平衡编码器与主干网络；早期融合则强调从头联合训练及严格的模态混合调度，以防止模型退化或遗忘语言能力。

🔸数据核心作用：数据混合比例随训练阶段动态变化，理解型数据奠定基础，生成型与交互型数据提升能力，偏好数据用于校准幻觉与安全性，SFT阶段需重新平衡模态分布。

🔸推理挑战应对：针对长上下文引发的序列爆炸，采用视觉重采样、动态分辨率及稀疏注意力机制；为实现实时交互，转向增量解码、全双工状态管理及自适应比特率控制。

💡个人观点

论文界定了"原生多模态"的架构边界，提出的"输入-输出对偶性"分类法，准确捕捉了从单向理解到双向对称生成的演进逻辑。