音驱数字人新突破
------浙大&阿里OmniAvatar解锁智能交互新形态
一句语音指令,能驱动数字人做出自然协调的全身动作、同步匹配的面部表情与口型,音频交互技术的边界正被不断打破。
浙江大学与阿里巴巴夸克团队联合研发并开源的音频驱动全身视频生成模型OmniAvatar,仅需一张人像图片与一段音频,就能生成肢体、表情、口型高度协同的数字人视频,大幅降低全身动捕数字人的制作门槛,为音频交互技术的落地应用开辟了全新赛道。
一、OmniAvatar:音频驱动 生成 数字人
OmniAvatar让音频信号成为驱动数字人行为的核心动力,实现了从"语言理解"到"动作表达"的跨越,其核心定位在于以极简输入实现高还原度数字人动态视频生成,无需复杂的动捕设备与专业的制作流程,单张图片搭配任意一段音频,即可让数字人呈现出与音频韵律相契合的肢体动作、贴合语义的面部表情,以及精准同步的口型变化,让数字人真正实现"听声动形",为电商直播、内容创作、智能交互等场景提供了轻量化的数字人解决方案。
二、三大核心技术:让数字人全身"听懂"音频
OmniAvatar的技术架构围绕"如何让数字人全身动作与音频深度联动"展开,通过三大核心技术模块的创新,解决了传统音频驱动数字人肢体僵硬、生成效果失真、长视频画面漂移等痛点,让数字人的动作表达更自然、更精准、更稳定。
音频嵌入:像素级联动,让肢体跟着韵律动
传统音频驱动技术仅能让音频影响数字人口型,肢体动作往往机械刻板,缺乏与音频的关联性。OmniAvatar采用像素级多层级音频嵌入策略,先通过Wav2Vec2提取音频的核心特征,再借助Audio Pack模块将音频特征逐像素对齐到视频潜在空间,并在扩散Transformer(DiT)的不同阶段进行多层次特征注入。这一技术让音频特征不仅作用于面部口型,更能深度影响数字人的肩部摆动、手势节奏、身体姿态等全身动作,实现肢体动作与音频韵律的精准挂钩,让数字人的每一个动作都贴合音频的节奏与情绪。
训练策略:LoRA平衡微调,兼顾效果与泛化
数字人生成易出现手部扭曲、眼神失焦、画面模糊等过拟合问题,而全量微调预训练模型又会丢失基础模型的画质与泛化能力。OmniAvatar基于大规模预训练的文生视频模型Wan2.1,采用基于LoRA的平衡微调策略,仅在模型中插入低秩自适应矩阵,仅训练新增参数而非全量微调。这一方式既避免了过拟合导致的生成效果失真,又完整保留了基础模型的高画质与强泛化性,让数字人的面部细节、肢体形态更逼真,同时能适配不同风格、不同场景的音频输入。
长视频一致性:锚定身份特征,杜绝画面漂移
长视频生成是数字人技术的一大难点,易出现人物身份模糊、服装颜色漂移、面部形态变形等问题。OmniAvatar通过参考图像嵌入+帧重叠策略解决这一痛点,将首帧的人物身份特征作为固定锚点,同时采用滑动窗口重叠生成的方式制作长视频,让每一个生成帧都与前序帧保持特征关联,确保长视频中数字人的身份特征、服装细节、背景元素始终稳定,从根本上解决了长视频生成的画面漂移问题。
三、多元核心能力:解锁数字人应用更多可能
依托核心技术创新,OmniAvatar拥有丰富的功能与能力,突破了传统数字人的应用限制,从单一的面部表达升级为全身动态呈现,从固定场景适配升级为多场景灵活应用,让音频驱动的数字人能满足不同领域的需求。
打破"仅面部能动"的限制,可生成挥手、举杯、行走、舞蹈等丰富且协调的肢体语言,让数字人的表达更立体、更生动;支持文本提示词与音频的双重调控,可通过文字精准设置数字人的动作幅度、情绪状态(喜悦/严肃等)、场景背景(如星空下演讲、直播间带货等),实现多模态信息的融合交互;可生成数字人手持商品、与场景物体互动的动态画面,直击电商直播、广告营销的核心痛点,无需真人出镜即可实现虚拟带货、产品展示;在歌唱、播客、访谈、动态表演等场景中表现优异,尤其在歌唱场景下,口型唇同步精度达到高水准,满足专业内容创作的需求;支持中、英、日等31种语言的口型精准匹配,打破语言壁垒,实现跨语言的数字人音频驱动生成。
四、开源生态与发展定位:从技术探索到产品落地
作为产学研联合的技术成果,OmniAvatar秉持开放共享的理念,已正式开源,其GitHub项目主页、研究论文(arXiv:2506.18866)均对外开放,官方项目主页还提供了大量视频演示,使得开发者与研究人员能便捷地获取技术资源、开展二次开发。
目前,OmniAvatar基于Wan2.1文生视频基座模型改造而来,团队明确表示,这一成果是多模态视频生成领域的初步尝试,虽在实验数据集上得到了有效验证,但尚未达到产品级应用水平。未来,OmniAvatar将围绕复杂指令处理、多角色交互等方向持续探索,进一步提升数字人的动作精准度、场景适配性与交互智能化,让音频驱动的数字人能更好地融入实际应用场景。
五 、音频交互技术的未来:从智能应答到具象表达
对话式AI让智能家居、智能设备实现了"能听会说"的自然交互,而OmniAvatar则让音频交互实现了"能说会动"的具象表达,二者共同推动着智能交互技术从"语音层面"向"视觉层面"、从"机器交互"向"拟人交互"的升级。
从对话式AI的语音识别、情感理解,到OmniAvatar的音频驱动、动作生成,音频交互技术的每一次突破,都在让机器更贴近人类的交流方式。当前,对话式AI仍面临语音识别不准、情感理解浅层、数据安全隐患等挑战,而OmniAvatar也尚未达到产品级应用水平,但其技术探索为音频交互的落地打开了新的想象空间。
技术的创新永无止境,OmniAvatar等音频驱动技术的不断迭代,最终的核心目标是让智能技术更贴近人的需求,实现更自然、更高效、更有温度的人机交互。而开源生态的建设,也将让更多开发者参与到技术创新中,推动音频交互技术从实验室走向生活,解锁更多智能交互的新可能。
信源:
· 官方项目主页:https://omni-avatar.github.io/
· 论文地址:arXiv:2506.18866
· GitHub:Omni-Avatar/OmniAvatar
202 6 中国国际音频产业大会(GAS)
点击链接: https://appkTQS9RSU4386.h5.xiaoeknow.com
聚焦音频产业技术分享,20 26 中国国际音频产业大会、声学大讲堂云直播、云课堂最新资讯全知道!
