AI 视频自动化学习日记 · 第三天

课程:第 11 章 AI 视频自动化(Coze)

日期:2026-03-20


昨天回顾

昨天跑了四个工作流,从创建空白草稿到批量添加素材,最后做了一个古诗词朗诵视频小助手。

最大的收获是理解了批处理 vs 循环的分工:批处理用于并行生成素材,循环用于顺序添加到时间线。

还记住了一句话:视频 = JSON 文件。搞懂了这个,AI 视频自动化就是顺水推舟的事儿。


今天学了什么?

今天学习了"基本招式"------剑法的核心在于基础剑式,视频自动化也一样,最基础的能力是添加字幕、音频、图片

这三个能力背后,都绕不开一个核心概念:时间线

11.5 基本招式-添加字幕

11.5.1 思路分析

在动手之前,老师先讲了一个核心概念------时间线

无论是添加字幕、音频还是图片,都需要先明确素材在时间轴上的位置。这个位置就是时间线。

想象一下时间线是一把尺子,素材是贴纸,你得先知道贴在哪里、贴多久。

字幕添加的完整流程

复制代码
1. 准备字幕文件 → AI 生成或手动整理
2. 确认时间线 → 确定每条字幕的开始和结束时间点
3. 转换与封装 → 把字幕文本 + 时间线组装成剪映小助手能识别的结构化数据
4. 创建草稿并提交 → 新建视频草稿,批量提交字幕数据
11.5.2 搭建教程

这一节手把手教怎么搭工作流,一共 8 步:

Step 1-2:创建工作流 + 配置开始节点

  • 输入变量:input(字幕文本)、num(行数/句子数)

Step 3:字符串分割

  • 用文本处理节点,把字幕按"换行符"拆成一句一句
  • 输出是一个数组,后续每个元素对应一张字幕

Step 4:时间线节点

  • 插件:剪映小助手 → timelines(时间线工具)
  • 参数:duration = 1000000(微秒,剪映的时间单位)、num = 句子数量
  • 输出:timelines(时间轴数组)

💡 思考题:为什么输入 1000000?

1000000 微秒 = 1 秒。如果想控制总时长,改这个值就行。

Step 5:字幕数据生成

  • 插件:剪映小助手 → caption_infos(制作字幕数据)
  • 输入:texts(分割后的句子)、timelines(时间线)
  • 输出:infos(结构化的字幕数据)

Step 6:创建草稿

  • 插件:剪映小助手 → create_draft(创建视频草稿)
  • 参数:视频宽高(如 1920×1080)

Step 7:提交字幕数据

  • 插件:剪映小助手 → add_captions(批量添加字幕)
  • 输入:captions(字幕数据)、draft_url(草稿地址)

Step 8:连接结束节点,输出 draft_url

跑通!输入几行文字,Coze 返回一个剪映草稿链接,粘贴到剪映小助手打开,字幕已经乖乖躺在时间线上了。


11.6 基本招式-添加音频

上一节学了加字幕,这一节学加音频------配音(BGM)和背景音乐

核心逻辑和字幕一样:

第一步:确定时间线

第二步:把音频素材和时间线绑定,组装成数据

第三步:提交到草稿

11.6.1 思路分析

音频和字幕是"音画组合",通常密不可分。

添加音频的流程:

复制代码
1. 准备音频 → 语音合成(TTS)或上传已有音频
2. 确定时间线 → 根据视频时长或字幕时长
3. 组装数据 → audio_infos
4. 提交到草稿 → add_audios
11.6.2 核心节点
  • 语音合成节点:把文本转成语音(Coze 内置插件)
  • audio_infos 节点:将音频素材与时间线绑定
  • add_audios 节点:批量添加音频到草稿

这里的音频默认会覆盖 原声。如果想要"配音+原声同时存在",需要用 add_bgm 节点。


11.7 基本招式-添加图片

学会了字幕和音频,终于到了最炫的部分------自动生成配图

11.7.1 思路分析

图片生成的流程稍微复杂一点,因为涉及 AI 绘图:

复制代码
1. 准备文案 → 拆分句子
2. 生成图片 → 用每句文案作为 prompt 调用 AI 绘图
3. 绑定时间线 → 用 asr_timelines 或手动时间线
4. 组装数据 → imgs_infos
5. 提交到草稿 → add_images
11.7.2 核心节点

批处理生成图片

  • 用批处理节点循环生成图片
  • 输入:句子文本(作为 prompt)
  • 输出:图片文件列表

imgs_infos 节点

  • 输入:
    • imgs:图片生成结果
    • timeline:时间轴信息
  • 输出:infos(已绑定时间线的图片数据)

💡 为什么要这个节点?

AI 生成的图片只是素材,没有"什么时候显示"的信息。imgs_infos 的作用就是:把图片和时间线绑在一起,告诉剪映"第 0-3 秒显示第 1 张图,第 3-6 秒显示第 2 张图"。

add_images 节点

  • 把绑好时间线的图片写入视频轨道
  • 输出:draft_url(更新后的草稿)、image_idssegment_ids

关键收获

1. 时间线是万恶之源(也是万水之源)

无论是字幕、音频还是图片,第一步都是确定时间线

  • 时间线 = 素材在视频中"什么时候开始、什么时候结束"
  • 剪映的时间单位是微秒(1秒 = 1000000 微秒)
  • 所有的 add_* 系列插件都依赖时间线工作

2. 三步走策略

无论加什么素材,核心逻辑都是:

复制代码
① 确定时间线(timelines)
② 组装素材数据(*_infos)
③ 提交到草稿(add_*)
素材类型 时间线节点 数据组装节点 提交节点
字幕 timelines caption_infos add_captions
音频 timelines audio_infos add_audios
图片 timelines imgs_infos add_images

3. 批量生产的秘密

如果想做一个"每句话配一张图 + 一段配音 + 一条字幕"的视频,流程是:

复制代码
文案 → 拆分句子
   ↓
批处理(语音合成)→ 配音列表
批处理(图像生成)→ 图片列表
   ↓
timelines(时间线)
   ↓
caption_infos(字幕数据)
audio_infos(音频数据)
imgs_infos(图片数据)
   ↓
create_draft(创建草稿)
   ↓
add_captions(字幕上轨)
add_audios(音频上轨)
add_images(图片上轨)

这就是一个完整的 AI 视频工作流


下一步

  • 把字幕、音频、图片三个模块集成到一个工作流里
  • 尝试给图片添加风格提示词(如"电影感"、"高清摄影")来优化生成效果
  • 研究一下 asr_timelines(语音识别时间线),实现"配音和图片自动对齐"
  • 挑战终极目标:输入一段文案,自动生成带图、带配音、带字幕、带 BGM 的完整视频

相关链接

项目链接

课程开源链接🔗:https://github.com/datawhalechina/coze-ai-assistant/blob/main/Course_Center/chapter11/chapter11.md

课程日常更新链接🔗:https://zxdwhda-share.feishu.cn/wiki/ZSspwjpT4ioMXAkNYdfcOKE1nqd

课程推荐学习链接🔗:https://zxdwhda-share.feishu.cn/wiki/JNcKwVqA4ie6zykefvqcew62nWd


未完待续,第四天继续...

相关推荐
程序员cxuan11 小时前
Claude Fable 5 来了
人工智能·后端·程序员
云边云科技_云网融合11 小时前
云边云科技亮相 2026 WOD 制造业数智化博览会 云网融合赋能制造焕新
人工智能·科技·安全·制造
Σίσυφος190012 小时前
激光三角 光平面标定-多高度误差分析
人工智能·计算机视觉·平面
JS菌12 小时前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端
lqqjuly12 小时前
前沿算法深度解析(二)
人工智能·算法·机器学习
Bode_200212 小时前
基于大数据分析的全生命周期质量追溯质量评估体系落地方案
大数据·人工智能
分布式存储与RustFS12 小时前
RustFS S3 Table 开源后,我重新梳理了一下 Iceberg 数据湖的选型思路
人工智能·开源·minio·dpu·rustfs·ai存储·s3 table
小宋加油啊12 小时前
学习机械臂相关知识
学习
DevOpenClub13 小时前
用 Agent 搭建网页内容采集与结构化处理流水线
人工智能
56AI13 小时前
2026 企业级AI智能体开发平台推荐:聚焦底层安全与准确率的智能体平台
人工智能·安全·智能体