可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破!

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。然而,现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。大多数系统要么计算开销巨大,无法实时响应,要么只能处理单一模态输入,缺乏真正的交互能力。

为了解决这些问题,快手可灵团队(Kling Team) 提出了一种名为 MIDAS(Multimodal Interactive Digital-human Synthesis)的新型框架,通过自回归视频生成结合轻量化扩散去噪头,实现了多模态条件下实时、流畅的数字人视频合成。

该系统具备三大核心优势:

  • 64×高压缩比自编码器,将每帧压缩至最多60个token,大幅降低计算负荷;
  • 低于500ms端到端生成延迟,支持实时流式交互;
  • 4步扩散去噪,在效率与视觉质量间取得最佳平衡。

该项研究已被广泛实验验证,在多语言对话、歌唱合成甚至交互式世界建模等任务中表现出色,为数字人实时交互提供了全新解决方案。

论文地址:arxiv.org/pdf/2508.19...

一、核心创新

多模态指令控制机制

MIDAS 支持从音频、姿态到文本等多种输入信号。通过一个统一的多模态条件投影器,将不同模态编码到共享潜在空间,形成全局指令令牌,构建 frame-by-frame 的 chunk 注入,引导自回归模型生成语义和空间一致的数字人动作与表情。

因果潜在预测 + 扩散渲染

模型可嵌套任意类似大语言模型的自回归架构,逐帧预测潜在表示,再由一个轻量级扩散头进行去噪和高清渲染。这种设计既保证了生成的连贯性,也大幅降低了计算延迟,适合实时流式生成。

高压缩率自编码器(DC-AE)

为实现高效的自回归建模,团队设计了压缩比高达64倍的DC-AE,将每帧图像表示为最多60个令牌,支持分辨率最高达384×640的图像重建,并引入因果时序卷积与RoPE注意力机制保障时序一致性。

大规模多模态对话数据集

为训练模型,研究者构建了一个约2万小时的大规模对话数据集,涵盖单人、双人对话场景,涵盖多语言、多风格内容,为模型提供了丰富的语境与交互样本。

二、方法概要

  • 模型架构:采用 Qwen2.5-3B 作为自回归主干网络,扩散头基于 PixArt-α / mlp 结构。
  • 训练策略:引入可控噪声注入,通过20级噪声桶和对应嵌入,缓解自回归模型在推理阶段的曝光偏差问题。
  • 推理机制:支持分块流式生成,每块6帧,可实现480ms级别的低延迟响应。

三、效果展示

  1. 双人对话生成系统可实时处理双人对话音频流,生成与语音同步的口型、表情和倾听姿态,支持自然轮流对话:

视频链接:www.bilibili.com/video/BV1aV...

双工对话示例

  1. 跨语言歌唱合成在没有显式语言标识的情况下,模型精准实现中文、日文、英文歌曲的唇形同步,生成视频可达4分钟无显著漂移:

视频链接:www.bilibili.com/video/BV1aV... 多语言歌唱合成效果

  1. 通用交互世界模型通过在Minecraft数据集上训练,MIDAS可响应方向控制信号,展现出良好的场景一致性与记忆能力,验证了其作为交互式世界模型的潜力:

视频链接:www.bilibili.com/video/BV1Vo...

Minecraft环境下的交互生成示例

四、总结

MIDAS在双边对话、多语言生成等任务中,MIDAS均实现实时生成(<500ms延迟), 并且扩散头仅需4步去噪,在效率与质量间取得最佳平衡,支持长达几分钟的连续生成,且质量衰减显著低于基线方法。

MIDAS不仅为实时数字人生成提供了端到端的解决方案,更探索了多模态自回归模型在交互式媒体生成中的潜力。其模块化设计允许灵活扩展至更多模态与控制信号,为虚拟人直播、元宇宙交互、多模态AI智能体等应用奠定了技术基础。

团队表示,未来将进一步探索更高分辨率、更复杂交互逻辑下的生成能力,并推进系统在真实产品环境中的部署。

相关推荐
倔强青铜三19 分钟前
苦练Python第66天:文件操作终极武器!shutil模块完全指南
人工智能·python·面试
倔强青铜三20 分钟前
苦练Python第65天:CPU密集型任务救星!多进程multiprocessing模块实战解析,攻破GIL限制!
人工智能·python·面试
强哥之神40 分钟前
浅谈目前主流的LLM软件技术栈:Kubernetes + Ray + PyTorch + vLLM 的协同架构
人工智能·语言模型·自然语言处理·transformer·openai·ray
zskj_qcxjqr1 小时前
七彩喜艾灸机器人:当千年中医智慧遇上现代科技
大数据·人工智能·科技·机器人
Zack_Liu2 小时前
深度学习基础模块
人工智能·深度学习
zy_destiny2 小时前
【工业场景】用YOLOv8实现抽烟识别
人工智能·python·算法·yolo·机器学习·计算机视觉·目标跟踪
狠活科技2 小时前
免登录!免安装ClI,Claude Code官方插件接入API使用教程
人工智能·vscode·ai编程
闲看云起2 小时前
Bert:从“读不懂上下文”的AI,到真正理解语言
论文阅读·人工智能·深度学习·语言模型·自然语言处理·bert
韩曙亮3 小时前
【自动驾驶】自动驾驶概述 ⑨ ( 自动驾驶软件系统概述 | 预测系统 | 决策规划 | 控制系统 )
人工智能·机器学习·自动驾驶·激光雷达·决策规划·控制系统·预测系统
深圳南柯电子3 小时前
车载通信设备EMC整改:高频问题与AI辅助诊断方案|深圳南柯电子
网络·人工智能·互联网·实验室·emc