AI 视频自动化学习日记 · 第三天

课程:第 11 章 AI 视频自动化(Coze)

日期:2026-03-20


昨天回顾

昨天跑了四个工作流,从创建空白草稿到批量添加素材,最后做了一个古诗词朗诵视频小助手。

最大的收获是理解了批处理 vs 循环的分工:批处理用于并行生成素材,循环用于顺序添加到时间线。

还记住了一句话:视频 = JSON 文件。搞懂了这个,AI 视频自动化就是顺水推舟的事儿。


今天学了什么?

今天学习了"基本招式"------剑法的核心在于基础剑式,视频自动化也一样,最基础的能力是添加字幕、音频、图片

这三个能力背后,都绕不开一个核心概念:时间线

11.5 基本招式-添加字幕

11.5.1 思路分析

在动手之前,老师先讲了一个核心概念------时间线

无论是添加字幕、音频还是图片,都需要先明确素材在时间轴上的位置。这个位置就是时间线。

想象一下时间线是一把尺子,素材是贴纸,你得先知道贴在哪里、贴多久。

字幕添加的完整流程

复制代码
1. 准备字幕文件 → AI 生成或手动整理
2. 确认时间线 → 确定每条字幕的开始和结束时间点
3. 转换与封装 → 把字幕文本 + 时间线组装成剪映小助手能识别的结构化数据
4. 创建草稿并提交 → 新建视频草稿,批量提交字幕数据
11.5.2 搭建教程

这一节手把手教怎么搭工作流,一共 8 步:

Step 1-2:创建工作流 + 配置开始节点

  • 输入变量:input(字幕文本)、num(行数/句子数)

Step 3:字符串分割

  • 用文本处理节点,把字幕按"换行符"拆成一句一句
  • 输出是一个数组,后续每个元素对应一张字幕

Step 4:时间线节点

  • 插件:剪映小助手 → timelines(时间线工具)
  • 参数:duration = 1000000(微秒,剪映的时间单位)、num = 句子数量
  • 输出:timelines(时间轴数组)

💡 思考题:为什么输入 1000000?

1000000 微秒 = 1 秒。如果想控制总时长,改这个值就行。

Step 5:字幕数据生成

  • 插件:剪映小助手 → caption_infos(制作字幕数据)
  • 输入:texts(分割后的句子)、timelines(时间线)
  • 输出:infos(结构化的字幕数据)

Step 6:创建草稿

  • 插件:剪映小助手 → create_draft(创建视频草稿)
  • 参数:视频宽高(如 1920×1080)

Step 7:提交字幕数据

  • 插件:剪映小助手 → add_captions(批量添加字幕)
  • 输入:captions(字幕数据)、draft_url(草稿地址)

Step 8:连接结束节点,输出 draft_url

跑通!输入几行文字,Coze 返回一个剪映草稿链接,粘贴到剪映小助手打开,字幕已经乖乖躺在时间线上了。


11.6 基本招式-添加音频

上一节学了加字幕,这一节学加音频------配音(BGM)和背景音乐

核心逻辑和字幕一样:

第一步:确定时间线

第二步:把音频素材和时间线绑定,组装成数据

第三步:提交到草稿

11.6.1 思路分析

音频和字幕是"音画组合",通常密不可分。

添加音频的流程:

复制代码
1. 准备音频 → 语音合成(TTS)或上传已有音频
2. 确定时间线 → 根据视频时长或字幕时长
3. 组装数据 → audio_infos
4. 提交到草稿 → add_audios
11.6.2 核心节点
  • 语音合成节点:把文本转成语音(Coze 内置插件)
  • audio_infos 节点:将音频素材与时间线绑定
  • add_audios 节点:批量添加音频到草稿

这里的音频默认会覆盖 原声。如果想要"配音+原声同时存在",需要用 add_bgm 节点。


11.7 基本招式-添加图片

学会了字幕和音频,终于到了最炫的部分------自动生成配图

11.7.1 思路分析

图片生成的流程稍微复杂一点,因为涉及 AI 绘图:

复制代码
1. 准备文案 → 拆分句子
2. 生成图片 → 用每句文案作为 prompt 调用 AI 绘图
3. 绑定时间线 → 用 asr_timelines 或手动时间线
4. 组装数据 → imgs_infos
5. 提交到草稿 → add_images
11.7.2 核心节点

批处理生成图片

  • 用批处理节点循环生成图片
  • 输入:句子文本(作为 prompt)
  • 输出:图片文件列表

imgs_infos 节点

  • 输入:
    • imgs:图片生成结果
    • timeline:时间轴信息
  • 输出:infos(已绑定时间线的图片数据)

💡 为什么要这个节点?

AI 生成的图片只是素材,没有"什么时候显示"的信息。imgs_infos 的作用就是:把图片和时间线绑在一起,告诉剪映"第 0-3 秒显示第 1 张图,第 3-6 秒显示第 2 张图"。

add_images 节点

  • 把绑好时间线的图片写入视频轨道
  • 输出:draft_url(更新后的草稿)、image_idssegment_ids

关键收获

1. 时间线是万恶之源(也是万水之源)

无论是字幕、音频还是图片,第一步都是确定时间线

  • 时间线 = 素材在视频中"什么时候开始、什么时候结束"
  • 剪映的时间单位是微秒(1秒 = 1000000 微秒)
  • 所有的 add_* 系列插件都依赖时间线工作

2. 三步走策略

无论加什么素材,核心逻辑都是:

复制代码
① 确定时间线(timelines)
② 组装素材数据(*_infos)
③ 提交到草稿(add_*)
素材类型 时间线节点 数据组装节点 提交节点
字幕 timelines caption_infos add_captions
音频 timelines audio_infos add_audios
图片 timelines imgs_infos add_images

3. 批量生产的秘密

如果想做一个"每句话配一张图 + 一段配音 + 一条字幕"的视频,流程是:

复制代码
文案 → 拆分句子
   ↓
批处理(语音合成)→ 配音列表
批处理(图像生成)→ 图片列表
   ↓
timelines(时间线)
   ↓
caption_infos(字幕数据)
audio_infos(音频数据)
imgs_infos(图片数据)
   ↓
create_draft(创建草稿)
   ↓
add_captions(字幕上轨)
add_audios(音频上轨)
add_images(图片上轨)

这就是一个完整的 AI 视频工作流


下一步

  • 把字幕、音频、图片三个模块集成到一个工作流里
  • 尝试给图片添加风格提示词(如"电影感"、"高清摄影")来优化生成效果
  • 研究一下 asr_timelines(语音识别时间线),实现"配音和图片自动对齐"
  • 挑战终极目标:输入一段文案,自动生成带图、带配音、带字幕、带 BGM 的完整视频

相关链接

项目链接

课程开源链接🔗:https://github.com/datawhalechina/coze-ai-assistant/blob/main/Course_Center/chapter11/chapter11.md

课程日常更新链接🔗:https://zxdwhda-share.feishu.cn/wiki/ZSspwjpT4ioMXAkNYdfcOKE1nqd

课程推荐学习链接🔗:https://zxdwhda-share.feishu.cn/wiki/JNcKwVqA4ie6zykefvqcew62nWd


未完待续,第四天继续...

相关推荐
AI英德西牛仔1 小时前
豆包公式格式
人工智能·ai·deepseek·ds随心转
benben0442 小时前
Triton编程技术背诵核心概念
人工智能
前端摸鱼匠2 小时前
面试题4:多头注意力(MHA)相比单头注意力的优势是什么?Head数如何影响模型?
人工智能·ai·面试·职场和发展·求职招聘
chushiyunen2 小时前
python edge-tts实现tts文本转语音、音频
数据库·python·音视频
yhdata2 小时前
车载图像处理芯片发展按下“快进键”:至2032年市场规模将逼近27.29亿元,产业动能强劲
图像处理·人工智能
NOCSAH2 小时前
统好AI数智平台CRM:智能驱动客户管理新体验
人工智能·数智化一体平台·统好ai
视***间2 小时前
2026:AI算力元年的加冕与思辨
人工智能·microsoft·机器人·边缘计算·智能硬件·视程空间
径硕科技JINGdigital2 小时前
B2B工业制造企业GEO供应商排名审视:以专业交付能力为核心的选型指南
大数据·人工智能·科技
Westward-sun.2 小时前
PyTorch入门实战:MNIST手写数字识别(全连接神经网络详解)
人工智能·pytorch·神经网络