谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%

昨晚,神秘且强大的图像生成与编辑模型 nano banana 终于正式显露真身。没有意外,它果然来自谷歌,并且也获得了一个正式但无趣的名字:gemini-2.5-flash-image-preview。

据介绍,该模型具有「SOTA 的图像生成与编辑能力、惊人的角色一致性以及闪电般的速度」。

从其名字也可以猜测,谷歌应该还有一个非 flash 的 gemini-2.5-image 模型 ------ 其性能应该会更加强大,但速度会更慢。

现目前,gemini-2.5-flash-image-preview 已经在 Google AI Studio 和 Gemini API 中提供了预览。用户可以免费试用。

可以看到,gemini-2.5-flash-image-preview 支持 32k 上下文,提供了温度(可以控制模型的创造力)以及一些高级设置。

然而,遗憾的是,该模型尚不支持对中文输入执行图像生成和编辑,而是会给出文本响应。

另外,在 Gemini 中,用户只需选择 2.5 Flash 并使用合适的提示词,也可以使用该模型。

价格方面,gemini-2.5-flash-image-preview 输入/输出文本的价格是 0.3/2.5 美元,输入/输出图像的价格是 0.3/30 美元。知识截止时间是 2025 年 6 月。

大概计算下来,该模型生成每张图像的成本大约为 0.039 美元(约 0.28 元),远低于 OpenAI 的图像生成成本。

具体功能(尤其是图像编辑)上,谷歌官方博客介绍说他们尤其注重在不同图片间保持人物形象的一致性。

「我们知道,当你编辑自己或熟悉的人时,哪怕是细微的差别都会显得刺眼 ------『差一点但不完全一样』的效果就是感觉不对。正因如此,我们的最新更新专门针对这一点,让你的朋友、家人,甚至宠物,无论是尝试 60 年代的蜂窝头发型,还是给吉娃娃穿上芭蕾舞裙,都能始终看起来像他们自己。」

你只需要给 Gemini 一张照片,并告诉它你想要修改的地方,就能加上独特的个人风格。该模型可以帮你把自己和宠物放在同一张照片里,把房间背景换成新壁纸的效果,或者把你带到世界上任何你能想象的地方 ------ 同时保持「你就是你」。完成后,你甚至可以把编辑过的照片再次上传到 Gemini,把新图变成一段有趣的视频。

谷歌还分享了一些玩法示例。

换装或换场景:上传一张人物或宠物的照片,该模型会在任何新场景下都保持他们的外貌一致。你可以尝试不同的服装、职业,甚至看看你在另一个年代会是什么样子 ------ 但始终还是你自己。

谷歌甚至还专门构建了一个演示模板应用来展示不同年代的你是什么样。

地址:aistudio.google.com/apps/bundle...

合成照片:你现在可以上传多张照片,把它们融合成一个全新的场景。比如,把你和狗狗的照片合成在篮球场上,生成一张完美的合影。

多轮编辑:你可以不断修改 Gemini 生成的图像。比如,从一间空房间开始,先刷墙,再加书架、家具或茶几。Gemini 会一路协助你,只改动你指定的部分,同时保留其余部分。

混合设计:把一张图的风格应用到另一张图的物体上。比如,把花瓣的颜色和质感应用到一双雨靴上,或者用蝴蝶翅膀的花纹设计一件连衣裙。

原生世界知识:该模型还能够利用 Gemini 的世界知识,从而解锁全新的应用场景。为了展示这一点,谷歌在 Google AI Studio 中构建了一个模板应用,它可以将一个简单画布变成交互式教育导师。

地址:aistudio.google.com/apps/bundle...

此外,谷歌还提到所有在 Gemini 应用中生成或编辑的图片都会带有可见水印,以及谷歌的隐形 SynthID 数字水印,以清晰标识它们是 AI 生成的。

该模型一上线就迎来了一波测试热潮,谷歌首席科学家 Jeff Dean 直接以身入局,将自己 P 成了一个足球运动员卡牌角色。

诺奖得主、DeepMind 创始人兼 CEO Demis Hassabis 也来了一张个人形象照。

网友们也是各洒创意,分享了很多有趣结果。

感兴趣的读者也可以访问我们之前的测试报道《谷歌偷偷搞了个神秘模型 Nano-Banana?实测:强到离谱,但有 3 大硬伤》。

排行榜

gemini-2.5-flash-image-preview 正式上线后不久,各个榜单也开始晒出该模型的成绩表现。

在 Artificial Analysis 图像编辑排行榜上,该模型直接跃升至第一位,获得了 1212 的 ELO 分数。

而在其文生图榜单上,字节跳动的即梦 3.0 和 OpenAI 的 GPT-4o 还有少量优势。

不过,在投票人数更多的 LM Arena 的榜单上,gemini-2.5-flash-image-preview 在这两个任务上都已经成为冠军。

下面展示了在各个指标上更详细的分数,其中 gemini-2.5-flash-image-preview 在角色一致性、创意、图表、事物 / 环境等方面优势明显,而在风格化方面,GPT-4o 目前最为领先。

你已经尝试过 nano banana /gemini-2.5-flash-image-preview 了吗?感觉如何?

参考链接

x.com/googleaistu...

blog.google/products/ge...

developers.googleblog.com/en/introduc...

相关推荐
机器之心14 小时前
谁说Scaling Law到头了?新研究:每一步的微小提升会带来指数级增长
人工智能·openai
算家计算14 小时前
AI配音革命!B站最新开源IndexTTS2本地部署教程:精准对口型,情感随心换
人工智能·开源·aigc
量子位14 小时前
马斯克周末血裁xAI 500人
人工智能·ai编程
算家计算15 小时前
OpenAI最强编程模型GPT-5-Codex发布!可独立编程7小时,编程效率提升10倍
人工智能·ai编程·资讯
聚客AI16 小时前
🌟大模型为什么产生幻觉?预训练到推理的漏洞全揭秘
人工智能·llm·掘金·日新计划
Juchecar16 小时前
一文讲清 nn.Sequential 等容器类
人工智能
coder_pig17 小时前
🤔 试试 OpenAI 的最强编程模型 "GPT-5-Codex"?
chatgpt·openai·claude
阿里云云原生17 小时前
如何快速看懂「祖传项目」?Qoder 强势推出新利器
人工智能
美团技术团队17 小时前
LongCat-Flash:如何使用 SGLang 部署美团 Agentic 模型
人工智能·算法
程序员小袁19 小时前
基于C-MTEB/CMedQAv2-rerankingv的Qwen3-1.7b模型微调-demo
人工智能