谷歌发布 Veo 3.1 视频生成模型:有声电影、长视频叙事与人物定制的实测与展望

目录

[1. Veo 3.1 的三大核心功能提升](#1. Veo 3.1 的三大核心功能提升)

[2. Veo 3.1 体验实测:音画同步惊艳,人物定制仍需优化](#2. Veo 3.1 体验实测:音画同步惊艳,人物定制仍需优化)

[2.1 音画统一测试](#2.1 音画统一测试)

[2.2 首尾画面连贯性与长视频拼接测试](#2.2 首尾画面连贯性与长视频拼接测试)

[2.3 人物主角形象定制测试](#2.3 人物主角形象定制测试)


谷歌最新视频生成模型 Veo 3.1 来了!北京时间 10 月 16 日,谷歌在 Gemini 应用程序接口(API)中发布了 Veo 3.1 和 Veo 3.1 Fast 付费预览版。这款新模型与前不久发布的 Sora 2 一样,新增了音频功能,迅速受到了行业的高度关注。

1. Veo 3.1 的三大核心功能提升

Veo 3.1 的此次提升主要聚焦在三大方面,旨在进一步优化 AI 视频在视听观感上的体验,并寻找实现"AI 长视频叙事"的解法:

AI 视频从默片走向有声电影:Veo 3.1 不但能够要求 AI 视频实现声音和画面的同步统一,还能够要求 AI 更好地理解画面内容,并给予合适的配乐或环境音效。

实现长视频叙事的连贯性:Veo 3.1 可以直接设定 AI 视频的开篇画面和结尾画面。这使得短视频之间的过渡更加自然,并能够进一步控制视频的首尾观感。更具突破性的是,通过将上一个视频的最后一个画面作为下一个视频的开篇,谷歌用一种另类的方式实现了**"AI 长视频"**的无限连贯生成。

通过三张图打造人物人设:用户现在可以给 Veo 3.1 三张图片,分别为一个女性头像、一个服装参考图以及一个场景设定。根据提示词要求,Veo 3.1 可以直接通过三张画面设定 AI 人物形象,并让该人物自然地说出目标台词。

2. Veo 3.1 体验实测:音画同步惊艳,人物定制仍需优化

目前,普通用户可以在 Gemini 应用程序和 Flow 中免费使用 Veo 3.1,但使用机会有限。国内多个 AI 视频生成平台,包括 Imagine.art、Fal-ai 和 Lovart 等,已快速宣布支持 Veo 3.1 模型调用。

2.1 音画统一测试

Veo 3.1 在音画统一上的表现,给出的提示词是:"纽约街头正在下雨,突然一道闪电伴随雷声而来。"

结果:闪电和雷声基本上在同一时间出现,音画一致性达成。更细致的发现是,每一辆车开过水坑时,声音会有一个从远到近、从大到小的变化程度,效果令人惊喜。

不足:生成的视频片段时长大约在 6 秒左右,与 Sora 2 可生成 10-20 秒相比不占优势。此外,画面中除车、雨滴和闪电外,两旁的行人和树木仍是静止的,违和感较重。

2.2 首尾画面连贯性与长视频拼接测试

通过设定首尾画面,并拼接两段视频, Veo 3.1 在连贯性和场景拓展上的能力:

测试 1:指示 Veo 3.1 生成一只虎斑猫跳上办公桌的完整跳跃弧线。结果视频前半部分自然,但在小猫跳到电脑后,突然变了另一只猫,出现了"魔法感"。

测试 2:指示 Veo 3.1 连接到第二个视频,让跳上桌的虎斑猫趴下睡着。当两个视频片段拼接在一起后,除了"魔法感"的突兀,视频与视频之间保持了连贯性,并实现了一定程度上的场景拓展,证明了其"长视频叙事"解法的可行性。

2.3 人物主角形象定制测试

使用三张参考图设定人物主角形象的功能,给出的指令要求人物(参考图)身穿指定服装(参考图)在指定场景(参考图)漫步,并同步生成环境音效。

结果:这是所有测试中表现最差的一项。AI 视频中的人物建模感严重,服装和场景与给出的参考图片有明显差别,AI 感极重。

整体结论:此次 Veo 3.1 在音画同步以及首尾画面稳定上均给出了不错的 AI 效果,展现了谷歌在视听体验上的努力。但在用图片设定人物形象方面,AI 人设的生成效果与官网介绍仍存在差距。

相关推荐
铁蛋AI编程实战3 分钟前
通义千问 3.5 Turbo GGUF 量化版本地部署教程:4G 显存即可运行,数据永不泄露
java·人工智能·python
HyperAI超神经7 分钟前
在线教程|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
开发语言·人工智能·深度学习·神经网络·机器学习·ocr·创业创新
晚霞的不甘14 分钟前
CANN 编译器深度解析:UB、L1 与 Global Memory 的协同调度机制
java·后端·spring·架构·音视频
JoySSLLian21 分钟前
手把手教你安装免费SSL证书(附宝塔/Nginx/Apache配置教程)
网络·人工智能·网络协议·tcp/ip·nginx·apache·ssl
BestSongC22 分钟前
行人摔倒检测系统 - 前端文档(1)
前端·人工智能·目标检测
模型时代28 分钟前
Anthropic明确拒绝在Claude中加入广告功能
人工智能·microsoft
夕小瑶32 分钟前
OpenClaw、Moltbook爆火,算力如何48小时内扩到1900张卡
人工智能
一枕眠秋雨>o<34 分钟前
透视算力:cann-tools如何让AI性能调优从玄学走向科学
人工智能
那个村的李富贵1 小时前
昇腾CANN跨行业实战:五大新领域AI落地案例深度解析
人工智能·aigc·cann
集简云-软件连接神器1 小时前
技术实战:集简云语聚AI实现小红书私信接入AI大模型全流程解析
人工智能·小红书·ai客服