视频与音频碰撞,谷歌 Veo 3.1,生成“有声电影”,人物对话超震撼

还记得 Veo 3.0 吗?这个是谷歌发布的文生视频大模型,其效果与质量简直惊人,它能生成令人惊叹的无声画面,但总感觉缺了点灵魂。

Veo 3.1 补上了这块关键拼图------它现在支持原生音频生成了!这意味着什么?

Veo 3.1 终于能够"听懂"声音了

人物对话: 你不仅能生成人物,还能让他们开口说话,生成匹配口型和情绪的对白。

看一下下面的对白,后期场景与人物对话的视频,还需要真人出镜吗?

复制代码
提示词:
一位经验丰富、灰白胡须的男子戴着太阳镜,身穿佩斯利衬衫,目光凝视镜头外,带着沉思的表情。
他的金链子微微闪烁。身旁,穿着背心的年轻男子同样目视前方,暗示着两人共同处于观察或沉思的时刻。
镜头缓缓推近,微妙地强调着他们安静的专注。背景中,色彩鲜艳的涂鸦布满墙壁,暗示着都市环境。
隐约的城市低语和远处的交谈声飘来,伴随醇厚深情的嘻哈节拍,营造出既具沉思感又扎根现实的氛围。
"这座城市总有故事要讲,"年长男子低语道,微微点头,"你得学会倾听。"

环境音效:无论是海浪拍岸、城市喧嚣还是森林鸟鸣,Veo 3.1 都能为你"配音",让视频的沉浸感瞬间拉满。

复制代码
提示词:
在19世纪60年代的爱尔兰乡间,两位身着粗布长裙的妇人正毅然行走在狂风肆虐的崖顶。
朴素的裙摆在强劲海风中猎猎翻飞。她们稳步走向令人目眩的悬崖边缘,
脚下顽强生长的野花在灰调景致中铺展成毯。悬崖之下,墨绿色的汹涌海涛正咆哮着撞击陡峭岩壁,
翻涌不息的海浪凌空炸开滔天白沫。

背景音乐: 它甚至能生成符合视频氛围的背景音乐。

复制代码
提示词:
【0-1秒】镜头开启,呈现精心雕琢的细腻场景:一尊浅黄色人形蜡像伫立在由熔融蜡质构筑的温暖幻境中。
蜡像立于画面中央,周身是蜡液凝成的起伏山丘与镜面般的水洼。
它高举手擎着一簇明艳跳动的火焰,暖黄光晕流淌过光滑微反光的蜡质躯干。
左侧一支粗蜡烛已部分融化,蓝色火苗几近熄灭,浓稠蜡泪正滴落至旁侧蜡丘。
整片空间沐浴在蜡像手持的金色光焰中,蜡质环境的莹润光泽与半透明质感在光影间流转。
【1-7秒】摄像机启动流畅跟拍,始终保持与蜡像平视的视角。
当蜡像开始在被淡金色蜡原上缓步前行,小巧脚掌在黏稠蜡面漾开细微涟漪,镜头随之优雅平移。
它举臂护着恒定燃烧的火焰,踏着沉稳步伐穿越流光溢彩的蜜色大地。
每步踏下都带着明确的目的性,火焰的柔光始终作为主光源照亮前路,
将周边蜡质构造的滴垂纹理映衬得纤毫毕现。
【7-8秒】蜡像继续在莹润秘境中寂然行进。
镜头维持平滑后拉运动,渐次展现更广阔的蜡质世界,突显这趟穿越异境的孤独跋涉。
那簇火焰始终明亮燃烧,在暖调朦胧光晕中宛若永恆的引路星芒

一句话总结:Veo 3.1 生成的是"有声电影",而不再是"默片"。这是从 0 到 1 的质变!

Veo 3.1 可让您为作品添加音效、环境噪音甚至对话,所有音频均可原生生成。它还能提供一流的音质,在物理效果、真实感和快速响应方面均表现出色。视频与音频的碰撞。谷歌最新的视频生成模型,旨在赋能电影制作人和故事讲述者。

从"盲盒"到"精修":前所未有的精细操控!

过去用 AI 生成视频,就像开盲盒,效果好坏全凭运气和提示词。但 Veo 3.1 赋予了创作者前所未有的"导演权"

与 Veo 3.0 相比,3.1 新增了三大"导演级"编辑功能:

指定"首尾帧" (Frames-to-Video): 这太酷了!你只需要给模型一张"开始"的图片和一张"结束"的图片,Veo 3.1 就能自动在两者之间"脑补"出平滑、自然的过渡视频。想象一下,从"一张素描"过渡到"一幅油画",或者从"白天的街道"过渡到"夜晚的霓虹",创意无限!

多图参考 (Image-to-Video 升级): 3.0 只能参考一张图,而 3.1 支持最多 3 张参考图像。这意味着你可以更精准地控制视频风格和主体。比如,你可以同时给它一张产品图、一张背景图和一张风格参考图,Veo 3.1 会努力在视频中保持这些元素的一致性。这对广告和电商行业简直是福音

视频"续写" (Video Extension): 生成的 8 秒视频太短了?没关系!Veo 3.1 允许你扩展之前生成的 Veo 视频,让故事延续下去。据官方资料,最长可以扩展到接近两分半钟(148 秒)!这已经足够制作一个完整的短片了。

性能硬指标:更快、更准、更清晰!

除了功能上的巨大革新,Veo 3.1 在基础性能上也毫不含糊:

更强的提示词理解力: 它对你输入的文字提示(Prompt)理解更到位了。能更准确地还原复杂的场景、光影效果和电影运镜(如"无人机视角"、"推拉镜头"等)。

更高的视听质量: 视频分辨率支持 720p 和 1080p,帧率 24fps,画质更清晰,动态更流畅,伪影更少。

更灵活的时长选项: 新增了 4 秒、6 秒和 8 秒的直接输出选项,更适合短视频平台的快节奏需求

Veo 3.1 意味着什么?

Veo 3.0 像一个才华横溢的"摄影师",而 Veo 3.1 已经进化成一个全能的"导演 + 后期团队"。

它不仅解决了音频的空白,更重要的是,它把创作的控制权大量交还给了用户。从"AI 帮我生成"变成了"我指挥 AI 生成"。

随着 Veo 3.1 逐步在 Google Flow 平台、Gemini API 和 Vertex AI 上线,我们距离"人人都是电影制作人"的时代又近了一大步

复制代码
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

相关推荐
DisonTangor3 小时前
PaddleOCR-VL: 通过0.9B超紧凑视觉语言模型增强多语言文档解析
人工智能·计算机视觉·语言模型·自然语言处理·开源·aigc
skywalk81633 小时前
在Ubuntu Linux安装brew 使用brew安装llama.cpp 运行文心Ernie大模型
人工智能·ubuntu·llama·ernie·brew·1024程序员节
golang学习记3 小时前
Vibe Coding不香了,试试深信服的CoStrict 严肃编程模式
人工智能
蒙奇·D·路飞-3 小时前
Grok、Claude、ChatGPT、Gemini模型适用场景比较
人工智能·chatgpt
腾视科技3 小时前
安全驾驶 智在掌控|腾视科技ES06终端,为车辆运营赋能
大数据·人工智能·科技·安全·大模型
飞哥数智坊3 小时前
Cursor + CloudBase,两周闲暇时间做出我的“AI 碎片助理”
人工智能·ai编程
库库8394 小时前
Spring AI 知识点总结
java·人工智能·spring
AndrewHZ4 小时前
【图像处理基石】通过立体视觉重建建筑高度:原理、实操与代码实现
图像处理·人工智能·计算机视觉·智慧城市·三维重建·立体视觉·1024程序员节