谷歌推出Nano Banana，全新图像编辑模型

大家好，谷歌发布全新图像编辑模型，官方名"Gemini 2.5 Flash Image"，可让用户在 Gemini 平台内获得更强的照片编辑控制权。因LMArena泄露的"nano-banana"（Nano Banana）更有趣、辨识度更高，因此本文统一使用此名。

目前，Gemini 应用已向用户同步推送该模型更新。借助该模型可实现换服装、人物背景迁移、融入宠物照等操作，且能尽量保持主体面部特征的一致性。

1.谷歌Nano Banana：登顶社区榜单的新型图像编辑模型

Nano Banana是谷歌DeepMind推出的新型图像编辑模型，推出后迅速登顶社区排行榜，成为评分最高的图像编辑工具。

官方发布后，该模型标注为"gemini-2.5-flash-image-preview (nano-banana)"，以1362分的成绩稳居榜单首位。

在与其他顶级图像模型的平均胜率对比中，该模型亦以0.855的成绩位列第一，核心性能表现突出。

Nano Banana兼具图像编辑与生成双重能力，不过本文重点介绍其图像编辑功能。

该模型的核心亮点在于"特征保留"机制：以往修图常出现"同一主体生成6个细微差异版本、鼻子形态随机变化、眼部特征不一致"的问题，而Nano Banana可有效规避这一痛点------即便调整场景、更换服装或增减道具，人物与宠物的外观仍能保持原貌，这也是其核心竞争力所在。

成本层面，通过API生成1024×1024分辨率图像时，单张费用约0.04美元（折合人民币约0.29元）。

2.Nano Banana图像编辑器的使用方法

下面通过实例演示Nano Banana的操作流程。

首先，需选择合适的平台试用该模型，目前可通过Gemini、谷歌Vertex AI、谷歌AI Studio或Flux Labs AI访问。

以"基于Nano Banana的Flux Labs AI图像编辑功能"为例，操作步骤如下：进入Flux Labs AI的"图像编辑器"工具，将模型设置为"Gemini 2.5 Flash"。

下一步，上传参考图像并设置提示词。假设要将"晴天滑雪场景"修改为"日落场景"，可使用如下提示词：

提示词：change the scene to sunset（将场景改为日落）

操作至此基本完成，你还可通过"高级设置"调整图像格式、宽高比等参数。点击"生成"按钮后，等待最终图像在屏幕右侧加载完成即可。

以下是生成的示例效果：

两张图像的对比图如下：

效果十分出色！主体人物、雪地与背景山脉均保持不变，仅将场景改为"日落"后，天空与整体色调随之调整，且模型还在主体左侧添加了落日元素，细节处理细腻。

再来看"多参考图编辑"案例：若想让模特虚拟试穿某件衣服，只需上传"模特图"与"服装图"，并让Nano Banana将两者融合即可。

提示词：make the female model wear the reference clothes(让女模特穿上参考服装)

结果完美------模型能智能判断服装的穿着方式与贴合效果，融合过渡自然，几乎看不出是AI生成的。

以下是高清的输入图像与输出图像：

该功能对服装行业的商家与内容创作者极具价值。那么，它是否会对现有提供"虚拟试穿"服务的初创公司造成冲击？答案很可能是肯定的。

除上述场景外，Nano Banana还有以下实用功能（均经过实测或验证）：

主体特征固定：更换服装、发型或场景时，面部特征不会偏移。
多图融合：将你的照片与宠物照片合成，呈现"一起打篮球"等创意场景。
多轮次编辑：无需一次性完成所有修改，可先粉刷墙面，再添加沙发，最后放置咖啡桌------模型会记忆每一步操作。
设计混搭：提取花瓣颜色应用到连衣裙上，或用蝴蝶翅膀的纹理设计鞋子。虽略显新奇，但趣味性十足。

所有操作均基于"提示词"实现：只需输入或说出需求，Gemini便会执行编辑，后续可反复调整。实测发现，简短且具体的提示词效果最佳。

3.Nano Banana图像生成功能

下面演示Nano Banana的图像生成功能：进入Flux Labs AI的"文本生成图像"工具，确认设置好提示词、模型（选择Gemini 2.5 Flash）及偏好的宽高比。

以如下提示词为例：

An action shot of a black lab swimming in an inground suburban swimming pool. The camera is placed meticulously on the water line, dividing the image in half, revealing both the dogs head above water holding a tennis ball in it's mouth, and it's paws paddling underwater. (一张黑色拉布拉多犬在郊区嵌入式泳池中游泳的动态照片。相机精准架设在水位线处，将画面一分为二：上方展现狗的头部露出水面，嘴里叼着网球；下方呈现狗的爪子在水下划动的姿态。)

该模型的图像生成速度较快，上述示例仅用约10秒便完成渲染。

不过，Nano Banana也存在短板：暂不支持非正方形宽高比与图像格式。

4.Nano Banana的API集成

从技术层面而言，谷歌提供了其图像模型的API接入服务，但实际体验中，相关文档与定价说明仍存在较多混淆之处。因此，在我个人的项目中，通常会直接选择Fal AI或Replicate等第三方平台接入。

在Fal平台的首页，可轻松找到最新模型；进入"API"标签页，还能查看示例代码片段。

以下是调用Nano Banana编辑功能的API示例代码：

python 复制代码

import { fal } from"@fal-ai/client";

const result = await fal.subscribe("fal-ai/nano-banana/edit", {
input: {
    prompt: "make a photo of the man driving the car down the california coastline",
    image_urls: [
      "https://storage.googleapis.com/falserverless/example_inputs/nano-banana-edit-input.png",
      "https://storage.googleapis.com/falserverless/example_inputs/nano-banana-edit-input-2.png"
    ]
  },
logs: true,
onQueueUpdate: (update) => {
    if (update.status === "IN_PROGRESS") {
      update.logs.map((log) => log.message).forEach(console.log);
    }
  },
});
console.log(result.data);
console.log(result.requestId);

操作流程非常简洁：只需传入提示词与参考图像URL，后续流程均由Fal平台处理。

以之前的"模特虚拟试穿"为例，输入参数如下：

python 复制代码

{
  "prompt": "让女模特穿上参考服装",
  "image_urls": [
    "https://v3.fal.media/files/penguin/9mCgXeNB79any8j2rl_q1_Screenshot%202025-08-27%20at%204.01.34%3FPM.png",
    "https://v3.fal.media/files/lion/1MggiUZVVs9eIIm7NvBic_Screenshot%202025-08-27%20at%204.01.20%3FPM.png"
  ],
  "num_images": 1
}

实际输出结果如下：

python 复制代码

{
  "images": [
    {
      "url": "https://v3.fal.media/files/monkey/zky9yYCPeB92zCuKGS_bJ_output.png",
      "content_type": "image/png",
      "file_name": "output.png",
      "file_size": 1614717,
      "width": null,
      "height": null
    }
  ],
  "description": ""
}

在开发流程中，若需为应用集成新的图像模型，通常会借助Cursor或Warp等工具生成基础代码框架。例如，我会向Claude Sonnet输入如下提示词，快速获取适配代码：

python 复制代码

In the src/app/(site)/ai-tools/image-generator page, text to image case and Image model section please add Google's Gemini 2.5 Flash below the Imagen 4 model.

When the Gemini 2.5 Flash model is selected, I need you to call a new API endpoint to generate an image. we will be using nano-banana endpoint. Please consider all that needs to be updated including the image upload to S3, credit deduction, etc. refer to existing implementation for reference.

Here's the API documentation:

Submit a request
#
The client API handles the API submit protocol. It will handle the request status updates and return the result when the request is completed.


import { fal } from "@fal-ai/client";

const result = await fal.subscribe("fal-ai/nano-banana", {
  input: {
    prompt: "An action shot of a black lab swimming in an inground suburban swimming pool. The camera is placed meticulously on the water line, dividing the image in half, revealing both the dogs head above water holding a tennis ball in it's mouth, and it's paws paddling underwater."
  },
  logs: true,
  onQueueUpdate: (update) => {
    if (update.status === "IN_PROGRESS") {
      update.logs.map((log) => log.message).forEach(console.log);
    }
  },
});
...
<rest of the API documentation>
...

短短几秒内，所有代码修改便可完成。后续只需审核代码变更、测试功能，确保一切正常运行即可。定价方面，每次图像生成或编辑请求的费用为0.039美元（约合人民币0.28元），1美元可使用25次。

过去几年，图像模型领域呈"功能碎片化"：生成、编辑、虚拟试穿、跨场景重塑角色等需求，需分别依赖不同模型或技术，即"一项任务一款工具"。

而Nano Banana打破这一格局，兼具生成与编辑等多能力且表现出色。开发应用时，无需整合多款独立模型，仅靠它即可简化流程、降低成本，解决以往常见难题。

同时，它也对聚焦虚拟试穿、图像模型训练等细分场景的初创公司构成冲击，随着其集成至Gemini，用户无需额外付费用专精服务，就能完成试穿、图像融合等操作。