4 秒出图、10 美分视频,Google 新媒体模型来了

⭐ 设为星标 · 第一时间收到推送

石臻说AI 编辑:石臻

导读: Google 这次把两个生成式媒体模型同时推给开发者:一个负责便宜、快速地出图,一个负责把视频生成和视频编辑变成对话。对开发者来说,重点不只是"又多了两个模型",而是图片草稿、视频参考、多轮编辑这些环节开始能串成一条更低成本的流水线。

图注:Google 官方发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google 这次发了什么

这条消息最早被很多人注意到,是 Logan Kilpatrick 在 X 上发的公告:Nano Banana 2 Lite 和 Gemini Omni Flash 已经进入 Gemini API 和 AI Studio。

拆开看,这其实是两件事。

第一件是 Nano Banana 2 Lite,也就是 gemini-3.1-flash-lite-image。Google 把它放在 Nano Banana 家族里,定位是最快、最便宜的图像生成和编辑模型,适合高频草稿、快速试方向、批量生成素材,而不是每张图都追求最高精修质量。

第二件是 Gemini Omni Flash,也就是 gemini-omni-flash-preview。这是一个视频生成和视频编辑模型,支持用文本、图片、视频做参考,然后继续用自然语言改视频。它现在是 public preview,已经面向开发者开放,但还不是一个完全稳定的生产模型。

模型 模型 ID 主要用途 当前状态
Nano Banana 2 Lite `gemini-3.1-flash-lite-image` 快速图像生成和编辑 Stable
Gemini Omni Flash `gemini-omni-flash-preview` 视频生成、对话式视频编辑 New Preview

可用入口也比较直接:Google 官方博客写明,Nano Banana 2 Lite 已经进入 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform;Gemini Omni Flash 也进入 AI Studio 和 Gemini API,并在 Gemini App、Flow 等产品里出现。

所以这不是单纯给普通用户玩的"新滤镜",更像是给开发者补齐一段媒体生产链路:先用便宜图像模型快速试视觉方向,再把图像作为参考交给视频模型继续生成和修改。

真正的钩子是速度和价格

图注:Gemini Omni Flash 的官方价格表,视频输出按 token 折算约 0.10 美元每秒

Nano Banana 2 Lite 最容易被记住的两个数字,是 约 4 秒出一张图,以及 1K 图片约 0.034 美元。

这个价格不是随口喊的。Google AI Developer 文档里的价格页写得更细:gemini-3.1-flash-lite-image 的图片输出按每百万 token 计费,Standard 档折算到 1K 图片约 0.0336 美元;Batch 档还能更低,约 0.0168 美元一张 1K 图片。

和更强的 Nano Banana 2 比,Lite 的取舍很清楚:它把出图速度和成本放在第一位。对设计师或创意团队来说,它更像"快速草稿机";对开发者来说,它更像一个可以放进产品里的视觉生成组件。

这会改变一些原本算不过账的场景。比如电商批量试商品背景,社交产品给用户快速生成头像和贴纸,游戏团队做大量概念草图,营销团队在一轮 campaign 里生成几百张视觉方向。以前这些场景不一定是模型做不到,而是慢、贵、调不动。现在低延迟和低单价一起下来,才真的开始像一个可调用的基础能力。

不过也别把 Lite 理解成"全场景替代 Pro"。Google 自己的家族定位很明确:Nano Banana 2 Lite 负责速度和成本,Nano Banana 2 负责平衡质量与效率,Nano Banana Pro 才是更复杂、更专业的视觉控制和高准确度场景。

视频模型更强,但限制也要先看清

图注:Gemini Omni Flash 的视频生成与编辑链路,重点在多模态参考和自然语言修改

Gemini Omni Flash 更有意思的地方,不是"文生视频"四个字,而是它把视频编辑做成了对话。

官方说法里,它支持把文本、图片、视频组合起来作为参考,然后继续用自然语言要求模型修改。比如让画面从白天变成黄昏、给产品视频换背景、让图形和动作同步出现,或者在同一个 session 里连续做几轮修改。

开发者社区目前的反馈也基本集中在这里:大家最兴奋的是它把 image-to-video、视频局部修改、多轮编辑放到一条 API 工作流里。Nano Banana 2 Lite 负责快速出参考图,Gemini Omni Flash 负责把参考图推进成视频,再继续改,这个组合比单独发一个图像模型或视频模型更有产品想象力。

价格上,Gemini Omni Flash 的视频输出按 token 计费,Google 文档折算为 约 0.10 美元每秒 720p 视频,和 Veo 3.1 Fast 的 720p 价格在同一档。对短视频生成来说,这仍然不算便宜,但已经到了可以认真做产品原型和小规模工作流测试的区间。

限制也要摆在前面。

官方博客写得很具体:Gemini Omni Flash 现在的视频生成时长是 10 秒;更长时长还在路上。Gemini API 里暂时不支持上传音频参考和 scene extension。API schema 接受最长 3 秒的视频参考,但当前模型还不能正确处理这类视频参考。跨场景变化或镜头移动时,角色一致性也还有限制。

X 上的反馈大体偏正面,尤其是速度、价格和视频编辑质量。但负面点也集中在这些边界上:preview 状态意味着接口和能力还可能变;有人在意视频水印;还有人提到配额、安全过滤或特定 prompt 的效果不稳定。现在更稳妥的理解是:它很适合试新工作流,但还不该直接被当成无脑替换人工后期的生产工具。

如果你现在就想试,优先看三个问题。

第一,你的场景是不是短视频或短片段编辑。10 秒以内,它更容易发挥。第二,你是不是能接受"先草稿、再筛选、再精修"的流程。Nano Banana 2 Lite 便宜快,但它的价值在批量试方向,不在每张都一次出终稿。第三,你是不是需要 API 级多轮编辑。如果只是偶尔做几张图、几段视频,普通产品入口可能够用;如果要把它嵌进自己的应用,Gemini API 和 AI Studio 才是重点。

这次发布最值得看的,就是 Google 把图像和视频的成本、速度、编辑方式放在一起推进了。单看每个模型,都能找到竞品;但把"快速出图"和"对话改视频"串起来,生成式媒体开始更像一个可编排的开发者工具箱。

📚 往期精选

X MCP 上线:Agent 读 X 的实操流程

美国商务部解禁Claude Fable5和Mythos5

开源AI被喊危险,闭源巨头到底怕什么

Claude 接上 Obsidian,第二大脑能自己长了

突发!美国政府禁止外国国民使用Fable5

Dario的新警告:AI太快,政策太慢

全网热议的Loop到底是个啥?

一句 why not,跑出 6 个 Claude 项目

微软开源 Webwright:把点击操作变成可重复执行...

这Github上9.3k人点赞的插件让Hermes更聪明

相关推荐
Nturmoils17 小时前
从 0 到 1 构建企业级 RAG:一个中小企业可落地版本的完整架构
aigc
网易云信17 小时前
9.9 元领 3 亿 Token,这个夏天实现 AI 自由!
人工智能·aigc·产品
网易云信17 小时前
全框架覆盖!网易智企IM鸿蒙生态适配再进一步
人工智能·aigc·harmonyos
网易云信18 小时前
重磅认证!网易智企智能融合通信获鸿蒙生态权威认可,斩获「Harmony Trusted SDK」认证
人工智能·后端·aigc
网易云信18 小时前
网易智企IM Web体验馆:一站式在线体验即时通讯
人工智能·后端·aigc
柒和远方19 小时前
Phase 7.2 RAG SafetyGuard:把用户上传资料当成低信任证据
aigc·agent
threerocks19 小时前
Fable + GPT Image = 无敌,Claude Code 中使用 Codex(订阅)生图的方案
aigc·ai编程
网易云信19 小时前
AI 赋能·重构硬件交互:硬件分论坛精彩回顾
人工智能·aigc·线下活动
刘棕霆20 小时前
29—AI Skill 测评集如何保持有效:从线上负反馈到 regression 用例
aigc·ai编程·测试