腾讯混元开源视频拟音模型,破解 AI 视频 “无声” 难题

想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory ------ 一款革命性的大模型微调工具。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
视频号(直播分享):sphuYAMr0pGTk27 抖音号:44185842659

人工智能培训讲师叶梓分享前沿技术:腾讯混元开源视频拟音模型

当前的视频生成模型能够合成高质量的视觉内容,但缺乏同步音频,这极大地限制了用户体验的沉浸感。传统Foley艺术需要专业人士逐帧创建,耗时且成本高昂,无法与现代视频生成系统的效率相匹配。现有的自动化Foley生成方法,如基于文本的音频合成(TTA)和视频到音频(V2A)的生成方法,均存在多模态数据稀缺、模态不平衡和音频质量有限等问题。

图2概述了HunyuanVideo-Foley模型的架构,展示了如何通过多模态Transformer块和单模态Transformer块的结合,以及如何利用同步特征和时间步嵌入进行调制。

HunyuanVideo-Foley框架包含以下三大核心创新:

  1. 可扩展的数据管道:通过自动化标注构建了约10万小时的多模态数据集,解决了多模态数据稀缺的问题。

  2. 表示对齐策略:使用自监督音频特征指导潜在扩散训练,有效提升了音频质量和生成稳定性。

  3. 新型多模态扩散Transformer:包含用于音频-视频融合的双流结构和通过交叉注意力注入文本语义的结构,解决了模态竞争问题。

图1展示了数据管道的工作流程,从原始视频数据库到过滤后的视频-音频数据库的处理步骤。

论文还提出了表示对齐(REPA)损失函数,通过将单流音频扩散Transformer块的隐藏嵌入与预训练的自监督模型提取的音频特征对齐,从而增强音频生成质量和稳定性。同时,采用基于DAC的增强型自编码器,将离散令牌替换为连续的128维表示,显著提高了音频重建能力。

通过综合评估表明,HunyuanVideo-Foley在音频保真度、视觉-语义对齐、时间对齐和分布匹配等方面均达到了新的最优性能。例如,在Kling-Audio-Eval数据集的客观评估中(表1),HunyuanVideo-Foley在分布匹配(FDPaNNs、KL)、音频质量(PQ)、视觉-语义对齐(IB)和时间对齐(DeSync)等多个指标上均优于基线模型。

相关推荐
Elastic 中国社区官方博客9 分钟前
将 agents 连接到 Elasticsearch 使用模型上下文协议 - docker
大数据·数据库·人工智能·elasticsearch·搜索引擎·docker·ai
一水鉴天19 分钟前
整体设计 修订 之1 三“先”之“基” 与范畴重构:康德先验哲学的批判性程序化实现
java·人工智能·算法
我叫侯小科29 分钟前
机器学习-支持向量机
人工智能·机器学习·支持向量机
Java中文社群41 分钟前
哇塞!AI编程神器Kiro,免排队畅用真Claude模型!
人工智能
IT_陈寒1 小时前
Python性能优化必知必会:7个让代码快3倍的底层技巧与实战案例
前端·人工智能·后端
即兴小索奇1 小时前
AI智能物流仓储新变革:从自动分拣到动态路径规划,破解仓储运营效率难题
人工智能·ai·商业·ai商业洞察·即兴小索奇
中草药z1 小时前
【SpringAI】快速上手,详解项目快速集成主流大模型DeepSeek,ChatGPT
人工智能·flux·sse·springai·deepseek·硅基流动·流式编程
BioRunYiXue2 小时前
FRET、PLA、Co-IP和GST pull-down有何区别? 应该如何选择?
java·服务器·网络·人工智能·网络协议·tcp/ip·eclipse
界面开发小八哥2 小时前
界面控件Telerik UI for Blazor 2025 Q2新版亮点 - AI集成全面增强
人工智能·ui·blazor·用户界面·telerik
皮皮学姐分享-ppx2 小时前
机器人行业工商注册企业基本信息数据(1958-2023年)
大数据·人工智能·python·物联网·机器人·区块链