字节黑科技 INFP，音频驱动的双边互动视频生成框架，实时生成，轻量又强大！

梓羽玩Python2024-12-22 13:45

单人头像、对口型类的视频生成模型见得多了。

但双边互动式视频生成还是第一次见。

它就是字节最新发布的基于音频驱动的交互式头像视频生成框架：INFP。

在双边对话中，存在双轨道音频，基于此可以生成任意代理的单个肖像图图像。

INFP 是一款新颖的声控头部生成框架，用于双边互动。

不像以前的头部生成工作只关注单向通信，或需要手动分派角色和显式角色切换，INFP动态地在说话和聆听之间切换agent portrait，受到输入双边音频的指导。

具体而言，INFP 包括两个阶段：基于动作的头部模仿阶段 和 音频引导的动作生成阶段。

第一阶段学会将现实对话中的面部交流行为投影到一个低维的动作隐空间，并使用动作隐码生成静态图像。

第二阶段通过去噪学习将输入双边音频映射到动作隐码，从而在互动场景中实现音频驱动的头部生成。

1、音频驱动，角色自动切换

根据音频内容自动切换角色，无需手动指定说话人。

2、高度真实的表情与动作

面部表情、头部动作与音频内容可保持高度一致。唇形同步效果精准，自然流畅。

3、轻量级与高性能

框架经过深度优化，运行速度超过 40 FPS，支持实时视频生成。

适合即时通讯、视频会议等实时场景。

轻量化设计，使得运行效率高，部署成本低。

4、多语言与多场景支持

支持多语言音频生成，适合国际化应用。

同时还支持唱歌模式，以及侧面头像和非人类形象的生成，扩展了使用范围。

INFP 通过简单的输入即可生成高度自然、灵活的互动视频。

这一框架在即时通讯、虚拟主播、教育娱乐等领域都展现出极高的实用价值。它的实时性、轻量化和多语言支持，可能在未来能成为虚拟交互应用的优选工具。

当然，INFP 框架刚刚发布，代码还未开源，可以先了解具体实现路径及具体示例看看效果。