AI生成视频与数字人

1、AI生成视频与数字人的基本概念和操作步骤

AI视频生成分为文本生成视频 和图像序列生成视频 ，核心是通过帧间插值、运动预测技术实现画面动态化；数字人则基于3D建模、表情捕捉与语音合成，构建可交互的虚拟形象。

直播行业常用数字人进行24小时带货，降低人力成本。

四步速成指南（以生成猫咪特工短片为例）：

①写"剧本"提示词： "007电影风格，三花短毛猫穿黑色燕尾服，在霓虹灯赌场里用爪子按密码锁，背景有香槟杯碰撞声和悬疑钢琴BGM"；

②选"片场设备" **参数：**帧率选24fps（电影感），分辨率1080p（别选4K，生成慢到怀疑人生），时长控制在15秒内（越长越容易穿帮）；

③选"演员" **：**如果要数字人，上传一张自己的照片当参考，输入"让数字人模仿我的表情，说'今晚月色真美'"；如果要动物主角，提示词里锁死"猫爪要戴白色手套"防止生成猪蹄；

④点"开机" **生成：**第一次可能出现猫爪穿模（变成六指琴魔），别急，追加提示词"修复爪子细节，增加赌场轮盘转动特写"；

提示语需包含动态要素（"镜头从左向右平移，展示城市天际线日落到夜景的变化"）和细节要求（"数字人眨眼频率自然，手势与台词匹配"）。

部分工具支持导入分镜草图，AI根据图像内容生成对应视频片段。

例如，生成产品宣传视频时，提示语可拆解为：

示例："第1-5秒：数字人手持产品正面特写，微笑介绍功能；第6-10秒：镜头拉远展示产品使用场景，背景音效渐强"；

风格控制可通过参考视频上传或风格关键词（如"宫崎骏动画风格，水彩质感滤镜"）实现；连贯性保障则依赖运动轨迹预设和帧间逻辑约束。

运动轨迹预设 是在提示语中指定物体移动路径（"小球沿抛物线从左下角弹向右上角"）；

帧间逻辑约束指AI通过光流估计技术分析相邻帧的像素运动，避免画面跳跃。影视后期中，该技术可用于补全绿幕拍摄的缺失背景，或生成特效过渡镜头。

**图像生成视频：**上传单张图片后，AI通过深度估计识别画面层次，为不同元素添加运动参数（如近景物体移动快，远景物体移动慢），生成视差效果的动态视频，常用于静态海报转短视频；

**视频生成数字人：**输入真人视频素材，AI提取面部表情、肢体动作特征，映射到3D数字人模型上，实现真人驱动数字人的效果。虚拟偶像行业借此技术实现低成本的直播与内容产出。