AI 视频自动化学习日记 · 第三天

课程：第 11 章 AI 视频自动化（Coze）

日期：2026-03-20

昨天回顾

昨天跑了四个工作流，从创建空白草稿到批量添加素材，最后做了一个古诗词朗诵视频小助手。

最大的收获是理解了批处理 vs 循环的分工：批处理用于并行生成素材，循环用于顺序添加到时间线。

还记住了一句话：视频 = JSON 文件。搞懂了这个，AI 视频自动化就是顺水推舟的事儿。

今天学了什么？

今天学习了"基本招式"------剑法的核心在于基础剑式，视频自动化也一样，最基础的能力是添加字幕、音频、图片。

这三个能力背后，都绕不开一个核心概念：时间线。

11.5 基本招式-添加字幕

11.5.1 思路分析

在动手之前，老师先讲了一个核心概念------时间线。

无论是添加字幕、音频还是图片，都需要先明确素材在时间轴上的位置。这个位置就是时间线。

想象一下时间线是一把尺子，素材是贴纸，你得先知道贴在哪里、贴多久。

字幕添加的完整流程：

复制代码

1. 准备字幕文件 → AI 生成或手动整理
2. 确认时间线 → 确定每条字幕的开始和结束时间点
3. 转换与封装 → 把字幕文本 + 时间线组装成剪映小助手能识别的结构化数据
4. 创建草稿并提交 → 新建视频草稿，批量提交字幕数据

11.5.2 搭建教程

这一节手把手教怎么搭工作流，一共 8 步：

Step 1-2：创建工作流 + 配置开始节点

输入变量：input（字幕文本）、num（行数/句子数）

Step 3：字符串分割

用文本处理节点，把字幕按"换行符"拆成一句一句
输出是一个数组，后续每个元素对应一张字幕

Step 4：时间线节点

插件：剪映小助手 → timelines（时间线工具）
参数：duration = 1000000（微秒，剪映的时间单位）、num = 句子数量
输出：timelines（时间轴数组）

💡 思考题：为什么输入 1000000？

1000000 微秒 = 1 秒。如果想控制总时长，改这个值就行。

Step 5：字幕数据生成

插件：剪映小助手 → caption_infos（制作字幕数据）
输入：texts（分割后的句子）、timelines（时间线）
输出：infos（结构化的字幕数据）

Step 6：创建草稿

插件：剪映小助手 → create_draft（创建视频草稿）
参数：视频宽高（如 1920×1080）

Step 7：提交字幕数据

插件：剪映小助手 → add_captions（批量添加字幕）
输入：captions（字幕数据）、draft_url（草稿地址）

Step 8：连接结束节点，输出 draft_url

跑通！输入几行文字，Coze 返回一个剪映草稿链接，粘贴到剪映小助手打开，字幕已经乖乖躺在时间线上了。

11.6 基本招式-添加音频

上一节学了加字幕，这一节学加音频------配音（BGM）和背景音乐。

核心逻辑和字幕一样：

第一步：确定时间线

第二步：把音频素材和时间线绑定，组装成数据

第三步：提交到草稿

11.6.1 思路分析

音频和字幕是"音画组合"，通常密不可分。

添加音频的流程：

复制代码

1. 准备音频 → 语音合成（TTS）或上传已有音频
2. 确定时间线 → 根据视频时长或字幕时长
3. 组装数据 → audio_infos
4. 提交到草稿 → add_audios

11.6.2 核心节点

语音合成节点：把文本转成语音（Coze 内置插件）
audio_infos 节点：将音频素材与时间线绑定
add_audios 节点：批量添加音频到草稿

这里的音频默认会覆盖原声。如果想要"配音+原声同时存在"，需要用 add_bgm 节点。

11.7 基本招式-添加图片

学会了字幕和音频，终于到了最炫的部分------自动生成配图。

11.7.1 思路分析

图片生成的流程稍微复杂一点，因为涉及 AI 绘图：

复制代码

1. 准备文案 → 拆分句子
2. 生成图片 → 用每句文案作为 prompt 调用 AI 绘图
3. 绑定时间线 → 用 asr_timelines 或手动时间线
4. 组装数据 → imgs_infos
5. 提交到草稿 → add_images

11.7.2 核心节点

批处理生成图片

用批处理节点循环生成图片
输入：句子文本（作为 prompt）
输出：图片文件列表

imgs_infos 节点

输入：
- imgs：图片生成结果
- timeline：时间轴信息
输出：infos（已绑定时间线的图片数据）

💡 为什么要这个节点？

AI 生成的图片只是素材，没有"什么时候显示"的信息。imgs_infos 的作用就是：把图片和时间线绑在一起，告诉剪映"第 0-3 秒显示第 1 张图，第 3-6 秒显示第 2 张图"。

add_images 节点

把绑好时间线的图片写入视频轨道
输出：draft_url（更新后的草稿）、image_ids、segment_ids

关键收获

1. 时间线是万恶之源（也是万水之源）

无论是字幕、音频还是图片，第一步都是确定时间线。

时间线 = 素材在视频中"什么时候开始、什么时候结束"
剪映的时间单位是微秒（1秒 = 1000000 微秒）
所有的 add_* 系列插件都依赖时间线工作

2. 三步走策略

无论加什么素材，核心逻辑都是：

复制代码

① 确定时间线（timelines）
② 组装素材数据（*_infos）
③ 提交到草稿（add_*）

素材类型	时间线节点	数据组装节点	提交节点
字幕	timelines	caption_infos	add_captions
音频	timelines	audio_infos	add_audios
图片	timelines	imgs_infos	add_images

3. 批量生产的秘密

如果想做一个"每句话配一张图 + 一段配音 + 一条字幕"的视频，流程是：

复制代码

文案 → 拆分句子
   ↓
批处理（语音合成）→ 配音列表
批处理（图像生成）→ 图片列表
   ↓
timelines（时间线）
   ↓
caption_infos（字幕数据）
audio_infos（音频数据）
imgs_infos（图片数据）
   ↓
create_draft（创建草稿）
   ↓
add_captions（字幕上轨）
add_audios（音频上轨）
add_images（图片上轨）

这就是一个完整的 AI 视频工作流！

下一步

把字幕、音频、图片三个模块集成到一个工作流里
尝试给图片添加风格提示词（如"电影感"、"高清摄影"）来优化生成效果
研究一下 asr_timelines（语音识别时间线），实现"配音和图片自动对齐"
挑战终极目标：输入一段文案，自动生成带图、带配音、带字幕、带 BGM 的完整视频

AI 视频自动化学习日记 · 第三天

昨天回顾

今天学了什么？

11.5 基本招式-添加字幕

11.5.1 思路分析

11.5.2 搭建教程

11.6 基本招式-添加音频

11.6.1 思路分析

11.6.2 核心节点

11.7 基本招式-添加图片

11.7.1 思路分析

11.7.2 核心节点

关键收获

1. 时间线是万恶之源（也是万水之源）

2. 三步走策略

3. 批量生产的秘密

下一步

相关链接