可灵团队提出MIDAS：压缩比64倍、延迟低于500ms，多模态互动数字人框架实现交互生成新突破！

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。然而，现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。大多数系统要么计算开销巨大，无法实时响应，要么只能处理单一模态输入，缺乏真正的交互能力。

为了解决这些问题，快手可灵团队（Kling Team）提出了一种名为 MIDAS（Multimodal Interactive Digital-human Synthesis）的新型框架，通过自回归视频生成结合轻量化扩散去噪头，实现了多模态条件下实时、流畅的数字人视频合成。

该系统具备三大核心优势：

该项研究已被广泛实验验证，在多语言对话、歌唱合成甚至交互式世界建模等任务中表现出色，为数字人实时交互提供了全新解决方案。

一、核心创新

MIDAS 支持从音频、姿态到文本等多种输入信号。通过一个统一的多模态条件投影器，将不同模态编码到共享潜在空间，形成全局指令令牌，构建 frame-by-frame 的 chunk 注入，引导自回归模型生成语义和空间一致的数字人动作与表情。

模型可嵌套任意类似大语言模型的自回归架构，逐帧预测潜在表示，再由一个轻量级扩散头进行去噪和高清渲染。这种设计既保证了生成的连贯性，也大幅降低了计算延迟，适合实时流式生成。

为实现高效的自回归建模，团队设计了压缩比高达64倍的DC-AE，将每帧图像表示为最多60个令牌，支持分辨率最高达384×640的图像重建，并引入因果时序卷积与RoPE注意力机制保障时序一致性。

为训练模型，研究者构建了一个约2万小时的大规模对话数据集，涵盖单人、双人对话场景，涵盖多语言、多风格内容，为模型提供了丰富的语境与交互样本。

双工对话示例

视频链接：www.bilibili.com/video/BV1aV... 多语言歌唱合成效果

Minecraft环境下的交互生成示例

MIDAS在双边对话、多语言生成等任务中，MIDAS均实现实时生成（<500ms延迟), 并且扩散头仅需4步去噪，在效率与质量间取得最佳平衡，支持长达几分钟的连续生成，且质量衰减显著低于基线方法。

MIDAS不仅为实时数字人生成提供了端到端的解决方案，更探索了多模态自回归模型在交互式媒体生成中的潜力。其模块化设计允许灵活扩展至更多模态与控制信号，为虚拟人直播、元宇宙交互、多模态AI智能体等应用奠定了技术基础。

团队表示，未来将进一步探索更高分辨率、更复杂交互逻辑下的生成能力，并推进系统在真实产品环境中的部署。