AI 绘画Stable Diffusion 研究（十四）SD 图生图+剪映制作人物说话视频

w风雨无阻w2023-08-24 8:01

大家好，我是风雨无阻。

前一篇，我们详细介绍了使用 SadTlaker制作数字人视频案例，感兴趣的朋友请前往查看:AI 绘画Stable Diffusion 研究（十三）SD数字人制作工具SadTlaker使用教程。

对于没有安装 SadTlaker 插件的朋友，可以查看这篇文章：AI 绘画Stable Diffusion 研究（十二）SD数字人制作工具SadTlaker插件安装教程。

想必用过 SadTlaker 的朋友都知道，目前使用 SadTlaker插件制作数字人说话的视频，有两个不太理想的地方：

（1）、生成视频消耗的时间比较长。尤其是显卡和显存比较低的朋友，想要制作一个长时间的视频，效率更低。

笔者亲测：使用3060 12G显卡，制作一段15s 左右的视频，需要10分钟左右。

（2）、目前的SadTlaker 图片人物只能使用正面照，这样给人的感觉比较突兀。

那有没有其他方法制作数字人视频，既能达到让数字人张嘴说话的效果，效率又更高，还可以使用非正面图的方式呢？

答案是有的，那就是今天的主题： SD 图生图制作人物张嘴说话图+剪映制作说话视频。

一、SD制作人物张嘴说话图

1、切换到SD 图生图->局部重绘界面，上传一张人物图片

2、反推正向提示词

3、改写正向提示词，让人物张嘴

没安装提示词插件的朋友，请查看这篇文章AI 绘画Stable Diffusion 研究（六）sd提示词插件，有详细安装步骤。

（1）、我们使用提示词插件，在提示词处，先输入中文：张嘴

提示词插件会自动将中文转换英文提示词。

如图：

（2）、为了让人物张嘴效果更明显，不被sd 忽略，我们需要增加张嘴提示词的权重

选择张嘴提示词，会弹出权重操作按钮，然后我们点击三次，增加权重图标按钮，此时提示词输入框内会自动增加提示词的权重。

如图：

（3）、涂选重绘区域

在局部重绘界面，右侧选择画笔，ctrl+鼠标滚轮可调整画笔粗细。

（4）、调整重绘尺寸

（5）、启用controlnet ，保存人物姿势不变

启用controlnet
控制类型选择：openpose
预处理器：openpose_full
模型：control_v11p_sd15_openpose

(6)、点击生成，即可获得人物张嘴的图片

对比图如下：

上面我们已经获得了人物张嘴的图片，那么接下来，我们使用剪映，加上配音和字幕，即可制作人物开口说话视频了。

二、剪映制作人物开口说话视频

1、准备工作

安装剪映，具体的安装步骤这里就不再细说，很简单，请自行安装。
准备好人物张嘴和闭嘴的两张图
准备好音频文件

2、打开剪映点击开始制作

3、导入音频和图片

如图：

qyDT-1692773049806)(assets/image-20230823003231110.png)]

4、将音频拖入下方音频轨道

5、生成字幕

依次点击菜单栏上"文本"按钮，再点击左侧"智能字幕"按钮，接着点击"开始识别"按钮，生成字幕

字幕生成如下：

6、将图片拖入轨道，然后切换嘴型

（1）、怎么切换嘴型，使其看上去像说话的效果呢？

用过剪映的朋友肯定知道，剪映 1s 是30帧。

那么正常人说话，大约1s 5 -6 个字。

因此我们可以计算出来大概 5帧一个嘴型。

因此我们先使用闭嘴的图，然后在5帧的地方，切换张嘴的图即可实现。

（2）、制作步骤

step 1: 将张嘴的图和闭嘴的图分别导入到图片两个轨道上
step 2:将右侧轨道缩放拖到最右侧，可以清晰看见轨道上的帧数，如1f \2f\4f\6f

如图：

step 3: 将定位线移到 5帧处，然后点击分割按钮，将张嘴和闭嘴图都分割开

如下：

step 4:处理闭嘴的图，分割后，我们删除，前5帧，不用的闭嘴图

如下：

step 5: 继续往后数5帧，再分割

step 6: 删除张嘴、闭嘴图多余的部分

step 7: 将张嘴、闭嘴拖入同一轨道，并且打组

选中两个片段，然后鼠标右键，新建复合片段，打组

现在的效果，就是闭嘴、张嘴的一个片段。

打组后如图：

step 8: 复制粘贴多个片段，直到一句说完话为止

然后将图片末尾和字幕对齐。

如图：

step 9: 没说话的时候，使用闭嘴的图

注意：将图片末尾和空白处末尾对齐

如下：

step 10: 继续处理后面说话的部分，重复步骤step 8，直到每句话处理完毕

step 11: 调整视频比例，9:16 再导出视频

右上角导出按钮，导出即可。

好了，这个视频制作就到此结束，看看效果吧：

SD 图生图+剪映制作人物说话视频

说实话，这个视频只是张嘴闭嘴的效果，没有脸部表情变化，确实显得比较生硬。

不过这里重点在于介绍制作思路和剪辑方法，对于感兴趣的朋友可以尝试玩一下。

上一篇：采用 UML 对软件系统进行建模的基本框架

下一篇：【精华】AIGC之Stable Diffusion专栏

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 04BongoCat - 跨平台键盘猫动画工具 05Linux下V2Ray安装配置指南 06jdk21下载、安装（Windows、Linux、macOS）07安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）08npm使用国内淘宝镜像的方法 09PyCharm 社区版全平台安装指南 10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南