Meta Platforms推出Imagine：基于Emu的免费AI文本到图像生成器服务

喜好儿aigc2023-12-08 21:26

优势主要体现在以下两个方面：

精细运动控制：
该项目在实现摄像机运动和物体运动方面表现出色，成功实现了对两者运动的高度独立控制。这一特性为运动控制提供了更为精细的调整空间，使得在视频生成过程中能够实现更灵活、多样的运动组合。相比传统方法，这种独立性为项目带来了更大的创造性和灵活性，提升了运动表现的细致度。
外观无关的运动条件：
项目的运动条件由摄像机的姿势和轨迹确定，而这些条件与外观无关。这一特性使得在生成的视频中，物体的外观或形状受到的影响最小化。通过摆脱外观相关的限制，项目不仅提高了生成视频的真实感，而且为用户提供了更大的自由度，使其能够更专注于运动的创意和表现，而非受制于外观的限制。

MotionCtrl 相机运动控制模块(CMCM)和物体运动控制模块(OMCM)的扩展 概述：

MotionCtrl 扩展了 LVDM 去噪 U-Net 结构，通过添加相机运动控制模块(Camera Motion Control Module,CMCM)和物体运动控制模块(Object Motion Control Module,OMCM)来捕获视频中的运动信息。

CMCM 通过将相机姿态序列 RT 附加到第二个 self-attention 模块的输入中，提取相机姿态特征。具体来说,CMCM 应用了一个定制的轻量级全连接层来处理 RT 序列，从而获取相机姿态特征表示。它然后将该特征表示与 LVDM 的时间变换器进行集成，以捕获视频中相机运动的影响。

同时,OMCM 通过学习物体移动的隐含表示，来捕获视频中物体运动信息。OMCM 在体征提取阶段学习物体运动特征，并将其注入到后续的残差块中，以提升神经网络对物体运动的理解能力。