官方链接

介绍

阿里终于整活了，刚刚阿里发布了一个大模型的展示页面，提出了一个名叫 EMO（Emote Portrait Alive） 的大模型，一种富有表现力的音频驱动的基于人物肖像生成视频的框架。具体来讲就是，输入单个参考人物肖像图像和语音（例如讲话或者唱歌等），可以生成具有丰富的面部表情和各种头部姿势的声音头像视频，同时可以根据输入视频的长度生成任意持续时间的视频。如下示意图。

所以总结下来特点如下：

只需要一张人物肖像照片，包括：现实照片、动漫照片、AI 生成的照片等等
只需要一段音频，包括：演讲、唱歌、讲话等等
生成符合音频内容的丰富的面部表情
生成任意时长的视频

原理

模型采用 stable diffusion 这一当下的主流框架作为整个模型基础框架，整个框架主要由两个阶段组成：在称为 Frames Encoding 这一初始阶段，ReferenceNet 用于从 reference image 和 motion frames 中提取特征。然后进入 Diffusion Process 阶段，模型输入不仅包括上面的两种特征，还需要预训练的 audio encoder 处理的音频特征，speed encoder 处理的头部速度嵌入，还有照片中的面部区域掩码特征以及多帧噪声集，通过主干网络的反复去燥操作完美控制面部图像的生成。

在主干网络中，除了 Self-Attention ，还应用了两种形式的注意力机制：Reference-Attention 和 Audio-Attention 。这两种机制分别对于保留角色的身份和调节角色的动作至关重要。此外 Temporal Modules 用于操纵时间维度，并调整运动速度。