从Sora到有言：3D视频生成技术的突破与应用

近年来，AIGC领域飞速发展，这个词也越来越高频地出现在了大家的生活中。AIGC 能完成的任务也越来越多，大模型的能力飞速增长 ------ 从Deepseek生成文字，到StableDiffusion生成图像，再到Sora可以生成视频。

而现在，AIGC 还可以生成 3D 视频。

相比于在屏幕前观看视频，3D 视频则更令人"身临其境"。2D 视频的本质是生成一帧帧充满像素点的图片，3D 视频则是由3D 场景、角色、光照等组成的。其生成方式也更接近现实世界中我们观察事物的逻辑，由此可以避免 AI 对真实世界客观规律的错误理解。

Sora 生成视频中篮球穿过了金属框

以现在的技术，生成看起来炫酷的视频不难；但要保证生成视频在物理规律上的正确性，却是一件很困难的事情。就连目前大家公认一枝独秀的 Sora，也无法解决这个问题。比如，上图为 Sora 生成视频的截图，图中篮球穿过了金属框。

在未来，生成的 3D 视频不仅能在我们常见的屏幕上播放（转为 2D 内容），而且还能再在 Vision Pro 等虚拟现实类媒介上播放，帮助大家提前布局未来的传播渠道。

AIGC 生成 3D 视频的这类应用具有什么优势吗？相比于传统 PGC （专业生产内容）制作 3D 视频的流程来说，其制作门槛低、耗时短、成本低。在 AIGC 之前，3D 视频都是通过传统 PGC 制作流程来生产的。传统 PGC 制作流程包含有许多步骤，而这其中的过程不仅需要专业人员的参与，而且耗时耗力。

而现在，用户可以选择使用 AIGC 来生成 3D 视频，一键式完成上述这些流程，把原本大几个月的工作压缩在一两天内完成，不仅大大节省了所需要的时间，而且也省下了大笔的经费。

此外，相比于 Sora 这类直接生成无法后期编辑视频的应用来说，生成 3D 视频的过程可控、生成后的视频元素（角色、场景、分镜等）可以编辑，因此更为适合商业应用。

更何况，Sora 这样的应用，还没有产品化和面向公众开放。但是， AIGC 生成 3D 视频这类应用，已经有很成熟的产品可以供用户来使用了。

比如有言，一站式 AIGC 视频生成平台。

有言这类 AIGC 视频生成平台，可以用于生成人物演讲形式的视频。面向的应用场景十分广泛，涵盖知识分享、教育培训、产品发布、社会政务、党建教育等领域。在如今这样的短视频时代，视频的影响力比图片文字更大，但是视频制作门槛相对较高。这样的 AIGC 视频生成平台，能让用户低门槛、低成本、快速地生成高质量视频。

在有言，用户只需要准备好脚本和素材，在网页上动动鼠标，即可轻松生成高质量3D视频内容。现在来拆解制作一个 3D 视频的流程。

有言视频制作第一步：制作脚本、上传素材

脚本是整个视频的灵魂。但是，脚本撰写的门槛很高，不仅需要很强的背景知识，还需要对于整个视频后期呈现的效果有较强的理解。像大型活动、知识分享这样的脚本撰写，专业人士也需要1-2个工作日才能完成。

有言一站式 AIGC 平台总不仅提供了高质量脚本生成模型，而且还能对于给出的脚本进行纠错、润色、风格化等改进。这对于没有视频脚本创作经验的人来说，十分提效。

有言还支持上传各种格式的素材，它们都可以在生成的演播室中进行展示。

有言视频制作第二步：角色和场景选择

3D 角色和场景是 3D 视频中视觉元素的主要组成部分。而在传统 PGC（专业生产内容）流程中，3D 角色和场景的建模也是最为繁琐和昂贵的。这两个部分分别耗时都会在 1-2 个月，耗资也是好几十万元，这两项的成本劝退了大部分考虑 3D 视频的用户。

在传统 PGC 中，建模一个人物角色的模型是很繁琐的，需要经过这样一些步骤：静态建模（需要模型师搭建出来角色形象、服装、妆容、发型等）、身体动作绑定（需要绑定师把模型和标准的人体部位绑定）、动作表情（需要动画师来绘制或者通过复杂的动作捕捉流程来完成）、声音建模（需要人工进行录音编辑等）。

而在传统 PGC 中，场景制作则更是费时费力。需要经过原画、场景建模、材质建模、灯光建模等诸多步骤。

而在有言中，不论是人物角色、场景，还是人物语音，都已经有了大量的资源库可供用户选择，直接帮助用户完成了最为复杂的 3D 人物角色和场景建模的部分。这些场景和人物使用起来也很容易，进入到有言一站式 AIGC 视频生成平台之后，搜索相应的标签，就能找到一系列的人物和场景。

鼠标轻轻一点，打开相应的模版，就可以进行下一步的视频生成和编辑。

在未来，有言一站式 AIGC 视频生成平台之后还会支持通过上传照片生成 3D 虚拟人等功能、智能绑定技术、AIGC文本生成动画等。有了这些功能，用户可以更加个性化地定制属于自己的人物模型和动作 ------ 当然，成本比传统方式要低得多。

在人物动作上，有言提供了很多细节功能，这些细节使得最后生成的视频更有质感，看起来也更为自然。比如，用户可以精确地进行动作控制，从而可以在演讲过程中增加和编辑相应的动作，使得整个演讲过程更为自然。

而这样的细节动作控制起来也很容易，只需要在脚本中插入相应的标记即可轻松实现。

有言视频制作第三步：视频生成

在上传了脚本和素材、选择好了场景和人物之后，离成型的视频已经很近了。

接下来，稍微检查一下每个视频片段中的脚本和素材。点击每个视频片段，可以看到相应的脚步，里面不仅包含了演讲稿内容，而且还包括了人物的动作、表情以及演讲的读音和语气等。

选择相应的音色之后，即可播放试听。

在传统 PGC 中，对演讲稿进行录音不仅十分耗时，而且也非常昂贵。人工配音员每分钟录音都需要上百元，而且还需要租用专业的录音棚来进行。而在有言上，则可以使用各种音色模版进行高质量的语音生成。现在 AI 生成语音的技术已经十分成熟，生成出来的语音和专业的配音员的语音质量也越来越近。而有言最大的优势是，语音的诸多细节都是可以编辑的，从停顿的时间、重读的单词，到词语的读音，都可以高度定制化。

把脚本、素材、场景、人物、语音等都搞定之后，点击"一键生成"，就可以看到制作的初版视频了。

"一键生成"背后对应的是传统 CG 渲染过程。这个过程需要考虑画面中的灯光、材质等诸多因素。在传统视频制作中，CG 渲染是一个很消耗计算资源的过程，同时也很昂贵。举例来说，渲染 1 分钟的 4K 视频，如果使用相应的渲染云服务，也需要上千元。

而有言开发了视频实时输出引擎（UE）、批量灯光采样等一系列的渲染技术，不仅大大降低了渲染的时间和现金成本，还能够达到高质量的渲染效果 ------ 不仅可以达到传统逐帧 4K 渲染的效果，而且能保证声画同步不跳帧。

有言视频制作第四步：视频包装

其实有言的"一键生成"已经在细节上帮用户下了很多功夫，包括如何切换镜头显得更加自然、人物应该在演讲的什么位置添加上什么动作等。

不过自动生成的视频也会不尽人意，不过没关系，3D 视频生成的优势就在于，所有的元素都可以后期进行编辑。

以视频分镜为例。视频分镜不仅能够突出重点，也使得整个视频更专业、更连贯。在有言中，用户可以更加细致地优化相应的镜头录制，使得整个视频更加连贯自然。

除了分镜优化之外，背景音乐、音效、字幕、文字效果等，都可以手动进行更加细致的编辑。

这些细节的加入，能够大大提高视频的观感和专业性。比如背景音乐能够提高视频的质感和声音上的层次，音效则能在相应位置更加突出重点。

在对视频加入这些小细节之后，就可以导出制作完成的视频。

总结而言，在现阶段，AIGC 生成视频大多还处于画大饼的概念阶段，Sora 视频生成的效果非常惊艳，但是最终它是否能被开放出来进行商用，还不一定。而在有言一站式 AIGC 视频生成平台上，大家已经可以体验到完整的 AIGC 视频生成产品。在这一点上，有言做的确实很不错。

在 AIGC 生成视频这方面，有言算得上是一款非常领先的产品，制作门槛低，很好上手；最大的优势在于能够大大节省制作 3D 视频的时间和金钱，

有言在人物演讲类视频生成上做得非常到位，适用包括知识分享、教育培训、产品发布、社会政务、党建教育在内的各种场景。整体的使用体验是很流畅，而且其中有很多打动科技人的小细节，比如能够就某一个手势进行自定义、某个词语的读音和停顿都可以进行相应的标注。真的强烈建议日常有视频制作需求、对视频制作感兴趣同行的都去试用、体验一下有言，毕竟在将来的 AIGC 时代，学习使用 AI 赋能的工具将是每个人的必修课。