⭐ 设为星标 · 第一时间收到推送

石臻说AI 编辑:石臻
导读: Google 这次把两个生成式媒体模型同时推给开发者:一个负责便宜、快速地出图,一个负责把视频生成和视频编辑变成对话。对开发者来说,重点不只是"又多了两个模型",而是图片草稿、视频参考、多轮编辑这些环节开始能串成一条更低成本的流水线。
图注:Google 官方发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google 这次发了什么
这条消息最早被很多人注意到,是 Logan Kilpatrick 在 X 上发的公告:Nano Banana 2 Lite 和 Gemini Omni Flash 已经进入 Gemini API 和 AI Studio。
拆开看,这其实是两件事。
第一件是 Nano Banana 2 Lite,也就是 gemini-3.1-flash-lite-image。Google 把它放在 Nano Banana 家族里,定位是最快、最便宜的图像生成和编辑模型,适合高频草稿、快速试方向、批量生成素材,而不是每张图都追求最高精修质量。
第二件是 Gemini Omni Flash,也就是 gemini-omni-flash-preview。这是一个视频生成和视频编辑模型,支持用文本、图片、视频做参考,然后继续用自然语言改视频。它现在是 public preview,已经面向开发者开放,但还不是一个完全稳定的生产模型。
| 模型 | 模型 ID | 主要用途 | 当前状态 |
|---|---|---|---|
| Nano Banana 2 Lite | `gemini-3.1-flash-lite-image` | 快速图像生成和编辑 | Stable |
| Gemini Omni Flash | `gemini-omni-flash-preview` | 视频生成、对话式视频编辑 | New Preview |
可用入口也比较直接:Google 官方博客写明,Nano Banana 2 Lite 已经进入 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform;Gemini Omni Flash 也进入 AI Studio 和 Gemini API,并在 Gemini App、Flow 等产品里出现。
所以这不是单纯给普通用户玩的"新滤镜",更像是给开发者补齐一段媒体生产链路:先用便宜图像模型快速试视觉方向,再把图像作为参考交给视频模型继续生成和修改。
真正的钩子是速度和价格

图注:Gemini Omni Flash 的官方价格表,视频输出按 token 折算约 0.10 美元每秒
Nano Banana 2 Lite 最容易被记住的两个数字,是 约 4 秒出一张图,以及 1K 图片约 0.034 美元。
这个价格不是随口喊的。Google AI Developer 文档里的价格页写得更细:gemini-3.1-flash-lite-image 的图片输出按每百万 token 计费,Standard 档折算到 1K 图片约 0.0336 美元;Batch 档还能更低,约 0.0168 美元一张 1K 图片。
和更强的 Nano Banana 2 比,Lite 的取舍很清楚:它把出图速度和成本放在第一位。对设计师或创意团队来说,它更像"快速草稿机";对开发者来说,它更像一个可以放进产品里的视觉生成组件。
这会改变一些原本算不过账的场景。比如电商批量试商品背景,社交产品给用户快速生成头像和贴纸,游戏团队做大量概念草图,营销团队在一轮 campaign 里生成几百张视觉方向。以前这些场景不一定是模型做不到,而是慢、贵、调不动。现在低延迟和低单价一起下来,才真的开始像一个可调用的基础能力。
不过也别把 Lite 理解成"全场景替代 Pro"。Google 自己的家族定位很明确:Nano Banana 2 Lite 负责速度和成本,Nano Banana 2 负责平衡质量与效率,Nano Banana Pro 才是更复杂、更专业的视觉控制和高准确度场景。
视频模型更强,但限制也要先看清
图注:Gemini Omni Flash 的视频生成与编辑链路,重点在多模态参考和自然语言修改

Gemini Omni Flash 更有意思的地方,不是"文生视频"四个字,而是它把视频编辑做成了对话。
官方说法里,它支持把文本、图片、视频组合起来作为参考,然后继续用自然语言要求模型修改。比如让画面从白天变成黄昏、给产品视频换背景、让图形和动作同步出现,或者在同一个 session 里连续做几轮修改。
开发者社区目前的反馈也基本集中在这里:大家最兴奋的是它把 image-to-video、视频局部修改、多轮编辑放到一条 API 工作流里。Nano Banana 2 Lite 负责快速出参考图,Gemini Omni Flash 负责把参考图推进成视频,再继续改,这个组合比单独发一个图像模型或视频模型更有产品想象力。
价格上,Gemini Omni Flash 的视频输出按 token 计费,Google 文档折算为 约 0.10 美元每秒 720p 视频,和 Veo 3.1 Fast 的 720p 价格在同一档。对短视频生成来说,这仍然不算便宜,但已经到了可以认真做产品原型和小规模工作流测试的区间。
限制也要摆在前面。
官方博客写得很具体:Gemini Omni Flash 现在的视频生成时长是 10 秒;更长时长还在路上。Gemini API 里暂时不支持上传音频参考和 scene extension。API schema 接受最长 3 秒的视频参考,但当前模型还不能正确处理这类视频参考。跨场景变化或镜头移动时,角色一致性也还有限制。
X 上的反馈大体偏正面,尤其是速度、价格和视频编辑质量。但负面点也集中在这些边界上:preview 状态意味着接口和能力还可能变;有人在意视频水印;还有人提到配额、安全过滤或特定 prompt 的效果不稳定。现在更稳妥的理解是:它很适合试新工作流,但还不该直接被当成无脑替换人工后期的生产工具。
如果你现在就想试,优先看三个问题。
第一,你的场景是不是短视频或短片段编辑。10 秒以内,它更容易发挥。第二,你是不是能接受"先草稿、再筛选、再精修"的流程。Nano Banana 2 Lite 便宜快,但它的价值在批量试方向,不在每张都一次出终稿。第三,你是不是需要 API 级多轮编辑。如果只是偶尔做几张图、几段视频,普通产品入口可能够用;如果要把它嵌进自己的应用,Gemini API 和 AI Studio 才是重点。
这次发布最值得看的,就是 Google 把图像和视频的成本、速度、编辑方式放在一起推进了。单看每个模型,都能找到竞品;但把"快速出图"和"对话改视频"串起来,生成式媒体开始更像一个可编排的开发者工具箱。
📚 往期精选