AI 视频自动化学习日记 · 第二天

课程：第 11 章 AI 视频自动化（Coze）

日期：2026-03-18

昨天回顾

昨天写了第一天的学习笔记，核心认知就一句话：视频 = JSON 文件。

搞懂了这个，AI 视频自动化就是顺水推舟的事儿------Coze 生成 JSON，剪映小助手搬运 JSON，剪映渲染 JSON。

昨天主要配置了开发环境，理解了三个工具的分工：

Coze：大脑，负责生成文案、语音、图片，组装草稿数据
剪映小助手：配送员，把云端草稿下载到本地、重写素材路径
剪映：执行者，读取草稿、渲染画面、导出视频

今天学了什么？

今天主要动手实操了，从 0 到 1 跑了三个工作流。总共四个小节，越学越深入。

11.4.1 创建第一个草稿

这是最基础的入门操作------让 Coze 在剪映里创建一个空白画布。

核心节点是 create_draft（创建草稿），只需要配置两个参数：

width：视频宽度
height：视频高度

跑通之后，Coze 会返回一个 draft_url（草稿链接），粘贴到剪映小助手一点击，一个空白视频项目就出现在剪映草稿箱里了。

最大的感受：原来创建一个视频项目可以这么快，全程不超过 2 分钟。

11.4.2 快速添加素材

光创建空白草稿没意思，得往里塞东西。

这一节学会了用 easy_create_material（简易创建素材轨道）插件，一步到位把文本、图片、语音、视频都添加进去。

工作流很简单：

复制代码

开始节点 → 语音合成 → 创建草稿 → 简易创建素材 → 结束节点

输入三个变量：

txt：文本内容
img：图片文件
video：视频文件

跑一遍，一个带图片、配音、字幕的视频草稿就出来了。我试了图片版和视频版两种素材，都能正常生成。

11.4.3 批量添加素材

上一个是"简易版"，这个是"进阶版"------用批处理（Batch）来批量生成内容。

适用场景是：我已经有一段很长的文案，想要每句话配一张图、每句话配一段语音。

这时候需要用到两个关键节点：

批处理（Batch）：把一段文字拆成多句，逐个处理
循环（Loop）：把生成的素材逐个添加到时间线上

工作流变成了这样：

复制代码

开始节点 → 大模型（拆分文案）→ 批处理（图像生成）→ 批处理（语音合成）→ 创建草稿 → 循环（添加素材）→ 结束节点

这里有个坑我注意到了：

如果语音合成不用批处理，系统默认只生成第一段话的语音，后面的都丢了。

11.4.4 简易添加素材到剪映

最后一个案例做了一个古诗词朗诵视频小助手------输入一首诗，自动生成带图、带配音、带字幕的视频。

这个工作流最完整，用到了：

大模型节点：生成古诗词的分镜描述
批处理 × 2：分别批量生成图片和语音
循环 + easy_create_material：把素材逐个添加到时间线

跑通之后的效果是：输入《桂枝香·金陵怀古》，几分钟后剪映里出现一个 1 分多钟的朗诵视频，每句诗配一张图、一段配音、字幕自动对齐。

关键收获

1. 批处理 vs 循环，用法不一样

场景	用什么	原因
多个素材并行生成，互不依赖	批处理（Batch）	速度快，同时生成
素材需要顺序添加到时间线	循环（Loop）	前一个添加完才能加下一个

2. 循环节点必须设置变量引用

在循环节点里调用 easy_create_material 时，需要把上一节点的输出（古诗词、图片、语音）正确引用进来，变量名要保持一致。

3. 时间线是怎么对齐的

之前一直好奇素材怎么自动对齐到时间线，easy_create_material 其实是自动把素材按顺序排列的。如果用 add_* 系列插件，就需要手动计算每个素材的起始时间。

下一步

尝试用 add_* 系列插件（进阶）而不是 easy_create_material
研究一下时间线的手动控制逻辑
试着做一个完整的"文案→配音→配图→剪辑"全自动工作流