谷歌I/O大会开幕前夕,关于Veo 4(或被爆料的称作Gemini Omni)的泄露信息开始在圈内流传,而这次泄露所揭示的并非简单的参数迭代,而是一个真正触及AI视频生成底层范式的技术突破------它开始学会"切镜头"了。
这一变化之所以在开发者社群中引发震动,是因为切镜头本质上要求模型在同一场景、同一组人物、同一时刻的约束下,从完全不同的视角重新生成画面,同时保证角色的服装颜色、桌上物体的位置以及面部表情的连贯一致,这在技术指标层面覆盖了物理一致性、空间一致性与时间一致性三重压力,是业内自2024年Sora问世以来一直未能实质性突破的难题。
过去,无论Sora、Runway Gen-4还是其他同行产品,生成的视频本质都是一个连续的长镜头,摄影机可做推拉摇移等平滑位移,但从未实现真正的视角切换。从传统影视制作的视角来看,这相当于将摄影指导与导演的职能在模型权重层面做了重新分配------摄影指导关注画面质量,导演关注叙事节奏与机位调度,而Veo 4的泄露信息表明谷歌试图将后者的能力直接编码进模型的推理过程中,使AI从"让模型拍一个镜头"进化到了"让模型拍一场戏"。
在音频生成这一侧,泄露信息同样带来了不可忽视的进展。Veo 3已在2025年实现原生音频同步,能够将脚步声、环境噪音和对话与画面一并生成,免去了后期对齐的工作量。然而Veo 3仍然存在两个显著短板:一是生成的音质仍有明显的合成感,二是仅能处理环境音和对话,缺乏根据画面情境生成背景音乐的能力。
本次泄露明确指向Veo 4将进一步迭代这两项能力------原生生成同步对话、环境音,并能根据画面内容自动适配情境化的背景音乐。从技术实现的角度来看,这意味着模型的输出空间同时覆盖了画面像素、音频采样和曲风情绪三个模态,其生成管线的复杂度已远超当前主流AI视频工具的单模态生成逻辑。
技术参数层面,泄露信息表明Veo 4目前支持最长9秒的720p分辨率视频输出,虽然未达到外界此前预期的15秒标准,但曝光者Pankaj Kumar指出这主要受限于当前的算力配置,而非模型架构能力的上限,谷歌未来很可能通过模型蒸馏压缩或下一代TPU硬件的升级来突破时长限制。
与此同时,Google I/O大会现场正式发布了Gemini Omni,皮查伊在演讲中形容其为"可以从任何输入形式获得任何输出模态的全能模型",这一点与泄露信息中关于Omni模型将针对所有核心模型推出Agent版本的描述保持了高度一致。
考虑到OpenAI旗下的Sora应用已于4月26日正式停服,其日推理成本据估算高达100万至1500万美元,而用户留存率始终未达预期,谷歌选择在此时放出Veo 4的技术消息,很难不让人理解为是一次对赛道格局的战略再定价。AI视频生成的市场竞争,已经从根本上从"谁的画面更逼真"转向了"谁能直接输出一条完整的成片"。
对于从事视频处理管线开发和AI模型部署的程序员而言,这一演进意味着工程关注的底层逻辑正在重新组织。当模型开始同时输出多视角内容并与音频模态同步时,传统的视频后处理流水线不再适用于这类多模态生产级场景,需重新设计包含端侧推理调度、多模态数据流同步以及内容合规性检测等环节的工程架构。与此同时,具备多模态生成与Agent化部署经验的技术人才将成为团队构建的核心缺口。