【愚公系列】《AI短视频创作一本通》004-AI短视频的准备工作（创作AI短视频的基本流程）

💎【行业认证·权威头衔】

✔ 华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家

✔ 开发者社区全满贯：CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主

✔ 技术生态共建先锋：横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】

🎖 连续三年蝉联"华为云十佳博主"（2022-2024）

🎖 双冠加冕CSDN"年度博客之星TOP2"（2022&2023）

🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】

覆盖全栈技术矩阵：

◾ 编程语言：.NET/Java/Python/Go/Node...

◾ 移动生态：HarmonyOS/iOS/Android/小程序

◾ 前沿领域：物联网/网络安全/大数据/AI/元宇宙

◾ 游戏开发：Unity3D引擎深度解析

文章目录

🚀前言
🚀一、创作AI短视频的基本流程
- [🔎1.脚本创作 ------ 为AI绘制"思想蓝图"](#🔎1.脚本创作 —— 为AI绘制“思想蓝图”)
- - [🦋1.1 确定核心主题](#🦋1.1 确定核心主题)
  - [🦋1.2 确定视觉风格](#🦋1.2 确定视觉风格)
  - [🦋1.3 构思具体脚本（情节与场景）](#🦋1.3 构思具体脚本（情节与场景）)
- [🔎2.静态图像创作 ------ 将脚本转化为关键帧](#🔎2.静态图像创作 —— 将脚本转化为关键帧)
- - [🦋2.1 选择AI图像生成工具](#🦋2.1 选择AI图像生成工具)
  - [🦋2.2 撰写描述文本（Prompt）](#🦋2.2 撰写描述文本（Prompt）)
  - [🦋2.3 调整参数与迭代优化](#🦋2.3 调整参数与迭代优化)
  - [🦋2.4 下载与保存素材](#🦋2.4 下载与保存素材)
- [🔎3.分镜视频创作 ------ 为静态画面注入生命力](#🔎3.分镜视频创作 —— 为静态画面注入生命力)
- - [🦋3.1 选择合适的AI视频生成工具](#🦋3.1 选择合适的AI视频生成工具)
  - [🦋3.2 导入场景图像并设定动态效果](#🦋3.2 导入场景图像并设定动态效果)
  - [🦋3.3 设置时长与合成预览](#🦋3.3 设置时长与合成预览)
- [🔎4.配音与音效设计 ------ 唤醒视频的听觉灵魂](#🔎4.配音与音效设计 —— 唤醒视频的听觉灵魂)
- - [🦋4.1 确定声音风格](#🦋4.1 确定声音风格)
  - [🦋4.2 生成与录制音频](#🦋4.2 生成与录制音频)
- [🔎5.后期剪辑与合成 ------ 最终的精细化打磨](#🔎5.后期剪辑与合成 —— 最终的精细化打磨)
- - [🦋5.1 集成素材与粗剪](#🦋5.1 集成素材与粗剪)
  - [🦋5.2 添加包装与特效](#🦋5.2 添加包装与特效)
  - [🦋5.3 成品输出与发布](#🦋5.3 成品输出与发布)
- 🔎6.全流程总结与心法

🚀前言

本章将解析AI短视频与真人拍摄短视频的差异，拆解创作AI短视频的基本流程，并推荐不可或缺的短视频效能工具，助力创作者进行高效的短视频创作。

🚀一、创作AI短视频的基本流程

创作一条高质量的AI短视频，是一个从"创意构思"到"视觉实现"的系统工程。其核心流程可分为四个阶段，本部分将详细介绍前两个关键阶段：脚本创作 与静态图像生成。

🔎1.脚本创作 ------ 为AI绘制"思想蓝图"

脚本是AI生成的根本依据，精准的脚本是成功的一半。短视频脚本虽短，却需精心构思。

🦋1.1 确定核心主题

与账号定位强关联：主题必须服务于你的整体账号方向。例如，定位"萌宠"，主题就应围绕宠物的趣事、成长、日常展开。
明确传达价值 ：在构思之初，就要回答：这个视频想向观众传达什么信息 ？提供何种价值（娱乐、知识、治愈）？
实用工具：4W1H分析法
- Who (目标观众)：是宠物主人、云吸宠爱好者，还是潜在养宠人群？
- What (核心内容)：是分享一个搞笑瞬间，还是记录一次温馨互动？
- Why (制作目的)：是为了提升账号活跃度、推广宠物用品，还是单纯传递快乐？
- When (发布时间)：考虑发布时机（如节假日、热点事件前后）。
- How (实现方式)：初步思考如何通过AI视觉化呈现。

🦋1.2 确定视觉风格

风格决定了视频的"视觉滤镜"，需在脚本阶段明确，以指导后续的图像生成。

写实风格：追求真实感与代入感，适合记录、测评、生活类内容（如萌宠日常）。
抽象/艺术风格：如卡通、水彩、科幻风，能带来独特的视觉体验，适合创意表达或概念宣传。
技术风格：如3D渲染、2D动画，根据内容和预算选择。

🦋1.3 构思具体脚本（情节与场景）

将主题转化为一系列可视化的关键场景。一个好的脚本应像一份分镜列表。

方法：列出视频的主要情节段落及每个段落的核心画面。
【萌宠类脚本构思示例】
- 场景1：清晨，闹钟响，猫咪在床上伸懒腰、不情愿睁眼。
- 场景2：厨房，猫咪吃早餐，脸上沾满食物碎屑。
- 场景3：客厅，猫咪追逐一个滚动的毛线球。
- 场景4：阳台，猫咪在阳光下舒服地打盹。
- 场景5：结尾特写，猫咪对着镜头"wink"一下。

🔎2.静态图像创作 ------ 将脚本转化为关键帧

直接文生视频效果尚不稳定，目前最可靠的流程是 "文生图 → 图生视频/动态化"。

🦋2.1 选择AI图像生成工具

根据生成需求（写实度、艺术性、可控性）选择合适的工具。

工具名称	核心特点	适用场景
Midjourney	艺术感强，画面精美，色彩氛围出众。	需要电影感、艺术感画面的场景，如概念海报、精美插画。
DALL-E 3	对自然语言理解精准，能忠实还原复杂描述。	需要精确实现脚本细节的场景，如特定动作、物品组合。
Stable Diffusion	开源，本地部署，可控性极高，插件生态丰富。	需要批量生成、风格统一、深度定制（如固定角色形象）的专业工作流。

建议：对于萌宠类等需要生动、真实感的题材，可优先测试DALL-E 3 的准确性或Midjourney的审美表现。

🦋2.2 撰写描述文本（Prompt）

这是控制生成结果最关键的步骤。好的描述应详细、具体、包含多层次信息。

描述公式 ：主体 + 状态/动作 + 场景/背景 + 细节 + 风格/质量词
【萌宠示例文本优化】
- 基础版："一只猫在阳光下。"
- 优质版："一只金色的英国短毛猫，正蜷缩在铺满阳光的窗台上睡觉，毛茸茸的尾巴轻轻摆动，脸上带着惬意的表情。室内有绿色植物作为背景，清晨柔和的光线，摄影风格，高清，细节丰富。"
- 核心要素拆解 ：
  - 主体：金色英国短毛猫（品种、颜色）。
  - 状态：蜷缩、睡觉、尾巴摆动。
  - 场景：有植物的窗台，清晨阳光。
  - 细节：惬意的表情，柔和光线。
  - 风格/质量：摄影风格，高清，细节丰富。

🦋2.3 调整参数与迭代优化

关键参数 ：
- 模型选择：不同的基础模型或LoRA模型擅长不同领域（如特定画风、宠物生成）。
- 分辨率：建议生成不低于1024x1024或所需视频比例（如9:16）的图像，为后续步骤留出空间。
- 长宽比：根据短视频平台要求设定（如抖音9:16，小红书3:4）。
- 生成步数：通常步数越高，细节越丰富，但耗时也越长。
迭代过程 ：很少能一次生成完美图像。需要根据初次结果，反复调整描述文本或参数。例如，如果猫的表情不够可爱，可以在描述中增加"大眼睛，无辜可爱的表情"等词语。

🦋2.4 下载与保存素材

格式：通常选择PNG格式以保留更高画质和无损压缩。
命名与归档 ：按照脚本场景顺序 对图像进行清晰命名（如01_清晨伸懒腰.png），并妥善保存。建立规范的素材库，是进行高效批量视频生成的基础。

流程至此，你已经拥有了一个明确的脚本和一系列高质量的关键帧静态图像。接下来的步骤，将是把这些静态图像转化为连贯的动态视频，并完成配音、配乐、字幕等后期合成工作，这将在后续的流程部分展开。

🔎3.分镜视频创作 ------ 为静态画面注入生命力

这是AI视频创作的核心步骤，将静态图像转化为动态分镜。

🦋3.1 选择合适的AI视频生成工具

根据易用性、效果和控制精度进行选择。

工具类型	特点	代表工具/方式
在线AI视频工具	操作简单，一键生成，适合快速测试和简单效果。	Runway Gen-2, Pika, 剪映/必剪的AI动画功能
专业AI视频软件	控制参数多，效果更精细，支持复杂运动。	Adobe After Effects（配合AI插件）
图生视频API	适合集成到自动化工作流，进行批量处理。	各大云平台提供的视频生成API

🦋3.2 导入场景图像并设定动态效果

导入素材：将上一步生成的高清、分辨率匹配的图像按脚本顺序导入工具。
核心操作：撰写动态提示词 这是让图像"动起来"的指令。
- 基础动作 ：描述主体运动，如 zoom in（推近）、pan left（向左摇移）、gentle sway（轻微摇摆）。
- 高级效果 ：描述氛围和镜头语言，如 cinematic, slow motion, dreamy atmosphere（电影感、慢动作、梦幻氛围）。
- 【萌宠示例】 ：对于一张猫咪静止的图像，可输入提示词：The cat's tail wags slowly, and its ears twitch slightly, with a soft bokeh background.（猫咪尾巴慢慢摇晃，耳朵轻微抽动，背景有柔美虚化。）

🦋3.3 设置时长与合成预览

单镜头时长 ：根据内容设定，通常2-5秒。快节奏剪辑可更短，重要镜头可稍长。
视频合成：将所有生成的动态分镜按脚本顺序排列，进行初步拼接。
检查与迭代 ：这是关键步骤 。必须预览检查：
- 动作是否自然？有无扭曲、闪烁等诡异运动。
- 转场是否连贯？镜头间的逻辑与节奏是否流畅。
- 是否符合脚本？如不达标，需返回调整提示词或重新生成该镜头。

🔎4.配音与音效设计 ------ 唤醒视频的听觉灵魂

声音是提升视频专业度与感染力的关键，50%的体验源于听觉。

🦋4.1 确定声音风格

根据视频主题、定位及目标受众决定：

配音人声：选择与画面调性匹配的音色（如温馨女声、活泼童声、沉稳男声）和演绎风格（可爱、幽默、治愈、知识性）。
背景音乐：决定整体情绪基调（轻松欢快、温馨治愈、紧张悬疑、宏大史诗）。

🦋4.2 生成与录制音频

AI语音合成（推荐） ：
- 优点：成本低、效率高、音色选择多。
- 关键：选择情感充沛、抑扬顿挫 的优质AI语音模型，并仔细调整脚本的断句、停顿和重音，使其听起来更自然。
- 提示词示例 ：[可爱活泼的少女音] 快看呀，这只小猫咪睡得多香！[伴随轻笑]
背景音乐与音效 ：
- 来源：使用无版权音乐库（如Audionetwork, Epidemic Sound）或平台内置音乐。
- 音量平衡黄金法则 ：背景音乐音量应控制在人声音量的20%-30% 以下，绝不喧宾夺主。

🔎5.后期剪辑与合成 ------ 最终的精细化打磨

这是"人机协同"的关键环节，由创作者进行最终的艺术把控。

🦋5.1 集成素材与粗剪

工具选择 ：使用剪辑软件（如剪映、必剪、CapCut、Premiere）进行最终合成。
素材导入 ：建立清晰的轨道，分别放置视频轨、配音轨、背景音乐轨、音效轨。
剪辑节奏 ：根据配音和音乐的节奏，精细调整每个镜头的切入切出点，确保整体节奏张弛有度。

🦋5.2 添加包装与特效

字幕：添加字幕提升完播率。确保字体清晰、颜色与画面协调，停留时间足够阅读。
转场：使用简单的淡入淡出、叠化等转场，使镜头衔接更流畅。避免花哨的特效转场。
调色与滤镜：进行整体颜色校正，或应用统一滤镜，以强化视频风格和氛围。
音效：在关键动作点（如宠物跳跃落地、物体出现）添加点缀音效，能极大增强观看体验。

🦋5.3 成品输出与发布

输出设置 ：
- 格式：MP4（最通用的格式）。
- 分辨率 ：至少 1080p (1920x1080) ，主推 4K (3840x2160) 以适应未来画质要求。
- 帧率：30 fps 为标准，若追求电影感或动作流畅性可使用 24 fps 或 60 fps。
- 码率：建议不低于 20 Mbps（针对1080p）。
最终检查 ：输出前，以观众身份完整观看1-2遍，检查声画同步、字幕错误、黑边等问题。

🔎6.全流程总结与心法

创作AI短视频的完整五阶段流程可归纳为：
创意脚本 → 静态图像 → 动态视频 → 配音音效 → 后期合成

核心心法：

脚本是灵魂：前期构思越细，后期生成越顺。
提示词是魔法：无论是图像还是动态生成，精准、详细的描述是成败关键。
迭代是常态：AI生成很少一步到位，耐心调试提示词和参数是必要过程。
人脑是关键 ：AI是强大的执行工具，但创意、审美、节奏感和情感把控永远依赖于创作者本人。

掌握此流程，你便能系统化、批量化地创作出既有效率又有质量的AI短视频内容。