课程:第 11 章 AI 视频自动化(Coze)
日期:2026-03-20
昨天回顾
昨天跑了四个工作流,从创建空白草稿到批量添加素材,最后做了一个古诗词朗诵视频小助手。
最大的收获是理解了批处理 vs 循环的分工:批处理用于并行生成素材,循环用于顺序添加到时间线。
还记住了一句话:视频 = JSON 文件。搞懂了这个,AI 视频自动化就是顺水推舟的事儿。
今天学了什么?
今天学习了"基本招式"------剑法的核心在于基础剑式,视频自动化也一样,最基础的能力是添加字幕、音频、图片。
这三个能力背后,都绕不开一个核心概念:时间线。
11.5 基本招式-添加字幕
11.5.1 思路分析
在动手之前,老师先讲了一个核心概念------时间线。
无论是添加字幕、音频还是图片,都需要先明确素材在时间轴上的位置。这个位置就是时间线。
想象一下时间线是一把尺子,素材是贴纸,你得先知道贴在哪里、贴多久。
字幕添加的完整流程:
1. 准备字幕文件 → AI 生成或手动整理
2. 确认时间线 → 确定每条字幕的开始和结束时间点
3. 转换与封装 → 把字幕文本 + 时间线组装成剪映小助手能识别的结构化数据
4. 创建草稿并提交 → 新建视频草稿,批量提交字幕数据
11.5.2 搭建教程
这一节手把手教怎么搭工作流,一共 8 步:
Step 1-2:创建工作流 + 配置开始节点
- 输入变量:
input(字幕文本)、num(行数/句子数)
Step 3:字符串分割
- 用文本处理节点,把字幕按"换行符"拆成一句一句
- 输出是一个数组,后续每个元素对应一张字幕
Step 4:时间线节点
- 插件:
剪映小助手 → timelines(时间线工具) - 参数:
duration= 1000000(微秒,剪映的时间单位)、num= 句子数量 - 输出:
timelines(时间轴数组)
💡 思考题:为什么输入 1000000?
1000000 微秒 = 1 秒。如果想控制总时长,改这个值就行。
Step 5:字幕数据生成
- 插件:
剪映小助手 → caption_infos(制作字幕数据) - 输入:
texts(分割后的句子)、timelines(时间线) - 输出:
infos(结构化的字幕数据)
Step 6:创建草稿
- 插件:
剪映小助手 → create_draft(创建视频草稿) - 参数:视频宽高(如 1920×1080)
Step 7:提交字幕数据
- 插件:
剪映小助手 → add_captions(批量添加字幕) - 输入:
captions(字幕数据)、draft_url(草稿地址)
Step 8:连接结束节点,输出 draft_url
跑通!输入几行文字,Coze 返回一个剪映草稿链接,粘贴到剪映小助手打开,字幕已经乖乖躺在时间线上了。
11.6 基本招式-添加音频
上一节学了加字幕,这一节学加音频------配音(BGM)和背景音乐。
核心逻辑和字幕一样:
第一步:确定时间线
第二步:把音频素材和时间线绑定,组装成数据
第三步:提交到草稿
11.6.1 思路分析
音频和字幕是"音画组合",通常密不可分。
添加音频的流程:
1. 准备音频 → 语音合成(TTS)或上传已有音频
2. 确定时间线 → 根据视频时长或字幕时长
3. 组装数据 → audio_infos
4. 提交到草稿 → add_audios
11.6.2 核心节点
- 语音合成节点:把文本转成语音(Coze 内置插件)
- audio_infos 节点:将音频素材与时间线绑定
- add_audios 节点:批量添加音频到草稿
这里的音频默认会覆盖 原声。如果想要"配音+原声同时存在",需要用
add_bgm节点。
11.7 基本招式-添加图片
学会了字幕和音频,终于到了最炫的部分------自动生成配图。
11.7.1 思路分析
图片生成的流程稍微复杂一点,因为涉及 AI 绘图:
1. 准备文案 → 拆分句子
2. 生成图片 → 用每句文案作为 prompt 调用 AI 绘图
3. 绑定时间线 → 用 asr_timelines 或手动时间线
4. 组装数据 → imgs_infos
5. 提交到草稿 → add_images
11.7.2 核心节点
批处理生成图片
- 用批处理节点循环生成图片
- 输入:句子文本(作为 prompt)
- 输出:图片文件列表
imgs_infos 节点
- 输入:
imgs:图片生成结果timeline:时间轴信息
- 输出:
infos(已绑定时间线的图片数据)
💡 为什么要这个节点?
AI 生成的图片只是素材,没有"什么时候显示"的信息。imgs_infos 的作用就是:把图片和时间线绑在一起,告诉剪映"第 0-3 秒显示第 1 张图,第 3-6 秒显示第 2 张图"。
add_images 节点
- 把绑好时间线的图片写入视频轨道
- 输出:
draft_url(更新后的草稿)、image_ids、segment_ids
关键收获
1. 时间线是万恶之源(也是万水之源)
无论是字幕、音频还是图片,第一步都是确定时间线。
- 时间线 = 素材在视频中"什么时候开始、什么时候结束"
- 剪映的时间单位是微秒(1秒 = 1000000 微秒)
- 所有的
add_*系列插件都依赖时间线工作
2. 三步走策略
无论加什么素材,核心逻辑都是:
① 确定时间线(timelines)
② 组装素材数据(*_infos)
③ 提交到草稿(add_*)
| 素材类型 | 时间线节点 | 数据组装节点 | 提交节点 |
|---|---|---|---|
| 字幕 | timelines | caption_infos | add_captions |
| 音频 | timelines | audio_infos | add_audios |
| 图片 | timelines | imgs_infos | add_images |
3. 批量生产的秘密
如果想做一个"每句话配一张图 + 一段配音 + 一条字幕"的视频,流程是:
文案 → 拆分句子
↓
批处理(语音合成)→ 配音列表
批处理(图像生成)→ 图片列表
↓
timelines(时间线)
↓
caption_infos(字幕数据)
audio_infos(音频数据)
imgs_infos(图片数据)
↓
create_draft(创建草稿)
↓
add_captions(字幕上轨)
add_audios(音频上轨)
add_images(图片上轨)
这就是一个完整的 AI 视频工作流!
下一步
- 把字幕、音频、图片三个模块集成到一个工作流里
- 尝试给图片添加风格提示词(如"电影感"、"高清摄影")来优化生成效果
- 研究一下 asr_timelines(语音识别时间线),实现"配音和图片自动对齐"
- 挑战终极目标:输入一段文案,自动生成带图、带配音、带字幕、带 BGM 的完整视频
相关链接
项目链接
课程开源链接🔗:https://github.com/datawhalechina/coze-ai-assistant/blob/main/Course_Center/chapter11/chapter11.md
课程日常更新链接🔗:https://zxdwhda-share.feishu.cn/wiki/ZSspwjpT4ioMXAkNYdfcOKE1nqd
课程推荐学习链接🔗:https://zxdwhda-share.feishu.cn/wiki/JNcKwVqA4ie6zykefvqcew62nWd
未完待续,第四天继续...