4 秒出图、10 美分视频，Google 新媒体模型来了

⭐ 设为星标 · 第一时间收到推送

石臻说AI 编辑：石臻

导读： Google 这次把两个生成式媒体模型同时推给开发者：一个负责便宜、快速地出图，一个负责把视频生成和视频编辑变成对话。对开发者来说，重点不只是"又多了两个模型"，而是图片草稿、视频参考、多轮编辑这些环节开始能串成一条更低成本的流水线。

图注：Google 官方发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google 这次发了什么

这条消息最早被很多人注意到，是 Logan Kilpatrick 在 X 上发的公告：Nano Banana 2 Lite 和 Gemini Omni Flash 已经进入 Gemini API 和 AI Studio。

拆开看，这其实是两件事。

第一件是 Nano Banana 2 Lite，也就是 gemini-3.1-flash-lite-image。Google 把它放在 Nano Banana 家族里，定位是最快、最便宜的图像生成和编辑模型，适合高频草稿、快速试方向、批量生成素材，而不是每张图都追求最高精修质量。

第二件是 Gemini Omni Flash，也就是 gemini-omni-flash-preview。这是一个视频生成和视频编辑模型，支持用文本、图片、视频做参考，然后继续用自然语言改视频。它现在是 public preview，已经面向开发者开放，但还不是一个完全稳定的生产模型。

模型	模型 ID	主要用途	当前状态
Nano Banana 2 Lite	`gemini-3.1-flash-lite-image`	快速图像生成和编辑	Stable
Gemini Omni Flash	`gemini-omni-flash-preview`	视频生成、对话式视频编辑	New Preview

可用入口也比较直接：Google 官方博客写明，Nano Banana 2 Lite 已经进入 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform；Gemini Omni Flash 也进入 AI Studio 和 Gemini API，并在 Gemini App、Flow 等产品里出现。

所以这不是单纯给普通用户玩的"新滤镜"，更像是给开发者补齐一段媒体生产链路：先用便宜图像模型快速试视觉方向，再把图像作为参考交给视频模型继续生成和修改。

真正的钩子是速度和价格

图注：Gemini Omni Flash 的官方价格表，视频输出按 token 折算约 0.10 美元每秒

Nano Banana 2 Lite 最容易被记住的两个数字，是约 4 秒出一张图，以及 1K 图片约 0.034 美元。

这个价格不是随口喊的。Google AI Developer 文档里的价格页写得更细：gemini-3.1-flash-lite-image 的图片输出按每百万 token 计费，Standard 档折算到 1K 图片约 0.0336 美元；Batch 档还能更低，约 0.0168 美元一张 1K 图片。

和更强的 Nano Banana 2 比，Lite 的取舍很清楚：它把出图速度和成本放在第一位。对设计师或创意团队来说，它更像"快速草稿机"；对开发者来说，它更像一个可以放进产品里的视觉生成组件。

这会改变一些原本算不过账的场景。比如电商批量试商品背景，社交产品给用户快速生成头像和贴纸，游戏团队做大量概念草图，营销团队在一轮 campaign 里生成几百张视觉方向。以前这些场景不一定是模型做不到，而是慢、贵、调不动。现在低延迟和低单价一起下来，才真的开始像一个可调用的基础能力。

不过也别把 Lite 理解成"全场景替代 Pro"。Google 自己的家族定位很明确：Nano Banana 2 Lite 负责速度和成本，Nano Banana 2 负责平衡质量与效率，Nano Banana Pro 才是更复杂、更专业的视觉控制和高准确度场景。

视频模型更强，但限制也要先看清

图注：Gemini Omni Flash 的视频生成与编辑链路，重点在多模态参考和自然语言修改

Gemini Omni Flash 更有意思的地方，不是"文生视频"四个字，而是它把视频编辑做成了对话。

官方说法里，它支持把文本、图片、视频组合起来作为参考，然后继续用自然语言要求模型修改。比如让画面从白天变成黄昏、给产品视频换背景、让图形和动作同步出现，或者在同一个 session 里连续做几轮修改。

开发者社区目前的反馈也基本集中在这里：大家最兴奋的是它把 image-to-video、视频局部修改、多轮编辑放到一条 API 工作流里。Nano Banana 2 Lite 负责快速出参考图，Gemini Omni Flash 负责把参考图推进成视频，再继续改，这个组合比单独发一个图像模型或视频模型更有产品想象力。

价格上，Gemini Omni Flash 的视频输出按 token 计费，Google 文档折算为约 0.10 美元每秒 720p 视频，和 Veo 3.1 Fast 的 720p 价格在同一档。对短视频生成来说，这仍然不算便宜，但已经到了可以认真做产品原型和小规模工作流测试的区间。

限制也要摆在前面。

官方博客写得很具体：Gemini Omni Flash 现在的视频生成时长是 10 秒；更长时长还在路上。Gemini API 里暂时不支持上传音频参考和 scene extension。API schema 接受最长 3 秒的视频参考，但当前模型还不能正确处理这类视频参考。跨场景变化或镜头移动时，角色一致性也还有限制。

X 上的反馈大体偏正面，尤其是速度、价格和视频编辑质量。但负面点也集中在这些边界上：preview 状态意味着接口和能力还可能变；有人在意视频水印；还有人提到配额、安全过滤或特定 prompt 的效果不稳定。现在更稳妥的理解是：它很适合试新工作流，但还不该直接被当成无脑替换人工后期的生产工具。

如果你现在就想试，优先看三个问题。

第一，你的场景是不是短视频或短片段编辑。10 秒以内，它更容易发挥。第二，你是不是能接受"先草稿、再筛选、再精修"的流程。Nano Banana 2 Lite 便宜快，但它的价值在批量试方向，不在每张都一次出终稿。第三，你是不是需要 API 级多轮编辑。如果只是偶尔做几张图、几段视频，普通产品入口可能够用；如果要把它嵌进自己的应用，Gemini API 和 AI Studio 才是重点。

这次发布最值得看的，就是 Google 把图像和视频的成本、速度、编辑方式放在一起推进了。单看每个模型，都能找到竞品；但把"快速出图"和"对话改视频"串起来，生成式媒体开始更像一个可编排的开发者工具箱。

📚 往期精选

X MCP 上线：Agent 读 X 的实操流程

美国商务部解禁Claude Fable5和Mythos5

开源AI被喊危险，闭源巨头到底怕什么

Claude 接上 Obsidian，第二大脑能自己长了

突发！美国政府禁止外国国民使用Fable5

Dario的新警告：AI太快，政策太慢

全网热议的Loop到底是个啥？

一句 why not，跑出 6 个 Claude 项目

微软开源 Webwright：把点击操作变成可重复执行...

这Github上9.3k人点赞的插件让Hermes更聪明