字节黑科技 INFP,音频驱动的双边互动视频生成框架,实时生成,轻量又强大!

单人头像、对口型类的视频生成模型见得多了。

但双边互动式视频生成还是第一次见。

它就是字节最新发布的基于音频驱动的交互式头像视频生成框架:INFP

在双边对话中,存在双轨道音频,基于此可以生成任意代理的单个肖像图图像。

INFP 是一款新颖的声控头部生成框架,用于双边互动。

不像以前的头部生成工作只关注单向通信,或需要手动分派角色和显式角色切换,INFP动态地在说话和聆听之间切换agent portrait,受到输入双边音频的指导。

INFP 实现原理

具体而言,INFP 包括两个阶段:基于动作的头部模仿阶段音频引导的动作生成阶段

第一阶段学会将现实对话中的面部交流行为投影到一个低维的动作隐空间,并使用动作隐码生成静态图像。

第二阶段通过去噪学习将输入双边音频映射到动作隐码,从而在互动场景中实现音频驱动的头部生成。

INFP 核心特点

1、音频驱动,角色自动切换

根据音频内容自动切换角色,无需手动指定说话人。

2、高度真实的表情与动作

面部表情、头部动作与音频内容可保持高度一致。唇形同步效果精准,自然流畅。

3、轻量级与高性能

框架经过深度优化,运行速度超过 40 FPS,支持实时视频生成。

适合即时通讯、视频会议等实时场景。

轻量化设计,使得运行效率高,部署成本低。

4、多语言与多场景支持

支持多语言音频生成,适合国际化应用。

同时还支持唱歌模式,以及侧面头像和非人类形象的生成,扩展了使用范围。

使用场景

  • 视频会议与即时通讯:实时生成虚拟头像,让沟通更具趣味性和表现力。

  • 虚拟主播:自动生成虚拟主播视频,提升内容生产效率。

  • 教育与娱乐:在教育场景中,提供虚拟教师或演示形象;在娱乐中用于角色互动。

  • 游戏与虚拟社交:为游戏中的虚拟角色提供更真实的表现力;在虚拟社交场景中生成动态头像。

写在最后

INFP 通过简单的输入即可生成高度自然、灵活的互动视频。

这一框架在即时通讯、虚拟主播、教育娱乐等领域都展现出极高的实用价值。它的实时性、轻量化和多语言支持,可能在未来能成为虚拟交互应用的优选工具。

当然,INFP 框架刚刚发布,代码还未开源,可以先了解具体实现路径及具体示例看看效果。

项目主页:grisoon.github.io/INFP/

相关推荐
struggle20251 分钟前
LLMControlsArm开源程序是DeepSeek 控制熊猫机械臂
人工智能·python·cmake·jupyternotebook·deepseek
奔跑吧邓邓子16 分钟前
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
人工智能·智慧能源·deepseek·微电网优化调度
EasyDSS18 分钟前
EasyRTC嵌入式音视频通信SDK助力物联网/视频物联网音视频打造全场景应用
人工智能·音视频
Oliverro18 分钟前
人脸识别技术成为时代需求,视频智能分析网关视频监控系统中AI算法的应用
网络·人工智能
点云SLAM25 分钟前
PyTorch中matmul函数使用详解和示例代码
人工智能·pytorch·python·深度学习·计算机视觉·矩阵乘法·3d深度学习
love530love1 小时前
【笔记】旧版MSYS2 环境中 Rust 升级问题及解决过程
开发语言·人工智能·windows·笔记·python·rust·virtualenv
VR最前沿1 小时前
Xsens-AAA工作室品质,为动画师准备
人工智能·科技
Leo.yuan1 小时前
API是什么意思?如何实现开放API?
大数据·运维·数据仓库·人工智能·信息可视化
MarkHD1 小时前
第十四天 设计一个OTA升级AB测试方案
网络·人工智能·ab测试
VR最前沿1 小时前
全新Xsens Animate版本是迄今为止最大的软件升级,提供更清晰的数据、快捷的工作流程以及从录制开始就更直观的体验
人工智能·科技·机器人·自动化