跨模态

【视频生成】GVS：生成式视图拼接标题：GENERATIVE VIEW STITCHING 来源：MIT CSAIL ；RunwayML 项目：https://andrewsonga.github.io/gvs

Prompt-To-Prompt——仅通过文本进行图像编辑文生图到图像编辑充满挑战，图像编辑需要保留原始图片大部分信息，而对于文生图，只要prompt稍微更改将导致生成完全不同图像。当前SOTA方法用户需要提供编辑位置的mask，忽略mask区域内容。作者探究一种仅通过文本进行编辑的框架，对此对条件文本模型进行深入探究，发现cross-attention层控制图像空间布局与prompt中每个word之间的相关性。作者通过仅编辑纹理prompt进行图像生成，包括：替换单词进行局部编辑、增加明细进行全局编辑、甚至精细化控制哪个单词映射到图像中哪部分。

AnimateDiff论文解读-基于Stable Diffusion文生图模型生成动画随着文生图模型Stable Diffusion及个性化finetune方法：DreamBooth、LoRA发展，人们可以用较低成本生成自己所需的高质量图像，这导致对于图像动画的需求越来越多。本文作者提出一种框架，可将现有个性化文生图模型所生成图片运动起来。该方法内核为在模型中插入一个运动建模模块，训练后用于蒸馏合理的运动先验。一旦训练完成，所有基于同一个文生图模型的个性化版本都可变为文本驱动模型。作者在动画、真实图上验证，AnimateDiff生成视频比较平滑，同时保留域特性及输出多样性。

我是有底线的