谷歌 Nano-Banana 图像生成编辑全解析

引言 Introduction

生成式 AI 的图像生成已经成为个人与企业广泛使用的工具,它能够让用户在无需任何设计经验的情况下,快速生成所需图像。此类工具本质上能加速原先耗时的工作,只需几秒钟即可完成。

随着技术进步和竞争加剧,涌现出许多先进的图像生成产品,如 Stable Diffusion、Midjourney、DALL-E、Imagen 等,它们各自为用户提供独特优势。然而,谷歌近期凭借 Gemini 2.5 Flash Image(代号 nano-banana) 对图像生成领域产生了重大影响。

Nano-banana 是谷歌最新的图像生成与编辑模型,具备以下功能:

  • 逼真的图像生成
  • 多图像融合
  • 人物一致性保持
  • 基于提示词的定向变换
  • 公共可访问性

与此前谷歌及其他竞争产品相比,该模型提供了更强的可控性。

本文将探索 Nano-banana 的图像生成与编辑能力,并通过 Google AI Studio 平台Gemini API 的 Python 环境进行演示。


测试 Nano-Banana 模型

要完成本教程,你需要:

  1. 拥有一个 Google 账号并登录 Google AI Studio
  2. 获取 Gemini API 的 API Key(当前无免费额度,需要付费计划)

如果想通过 Python 调用 API,可以先安装 Google 生成式 AI 库:

复制代码
pip install google-genai

账户设置完成后,进入 Google AI Studio,选择 gemini-2.5-flash-image-preview 模型,也就是 nano-banana。


图像生成示例

在 AI Studio,输入以下提示词生成照片级写实图像示例:

一幅照片级写实的近距离肖像:一位印尼蜡染女工,双手被蜡染染色,用"canting"笔在靛蓝布上描绘流动的花纹。她工作在通风的木制阳台桌前,背景里模糊着折叠的纺织品和染缸。上午的光线从窗户倾泻,扫过布料,显现蜡迹细线与柚木纹理。使用 85mm f/2 拍摄,营造柔美的虚化背景。整体氛围专注、细腻而自豪。

生成图如下所示。效果呈现出高保真度和提示一致性。

如果你偏好 Python 实现,可以使用如下代码生成:

复制代码
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
from IPython.display import display 

# 替换为你的 API Key
api_key = 'YOUR-API-KEY'
client = genai.Client(api_key=api_key)

prompt = "A photorealistic close-up portrait of an Indonesian batik artisan..."

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=prompt,
)

image_parts = [
    part.inline_data.data
    for part in response.candidates[0].content.parts
    if part.inline_data
]

if image_parts:
    image = Image.open(BytesIO(image_parts[0]))
    display(image)

图像编辑示例

在写实图的基础上,通过提示词编辑:

在画面中为女工添加一副细框阅读眼镜,确保光影真实,眼镜自然衔接,不遮挡眼睛。

结果成功在人物基础上进行细微改动。

Python 实现方式:

复制代码
from PIL import Image

base_image = Image.open('/path/to/your/photo.png')
edit_prompt = "在画面中为女工添加一副细框阅读眼镜..."

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[edit_prompt, base_image])

人物一致性测试

通过提示词让同一位女工在新场景中出现:

  • 她坐在桌前,抬头看向镜头,露出微笑。
  • 换场景时依旧保持人物特征不变。

效果表明 nano-banana 能进行 人物身份一致性生成

进一步尝试让她展示完成的蜡染布,并改变拍摄光效,图像依然保持人物一致性。


风格转换

将写实图像转换为水彩风格:

请将人物及场景转化为精致水彩画,布料以松散靛蓝晕染表现,木桌与背景用浅赭色,整体呈手绘纹理。

生成图展现了完全不同的艺术风格,但保持构图与元素不变。


图像融合

利用另一个生成的道具(草帽),将其融入到人物形象中:

Python 示例:

复制代码
from PIL import Image

base_image = Image.open('/path/to/your/photo.png')
hat_image = Image.open('/path/to/your/hat.png')
fusion_prompt = "将草帽自然戴在她头上..."

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[fusion_prompt, base_image, hat_image])

建议输入图像不超过三张,以获得最佳效果。


总结 Wrapping Up

Gemini 2.5 Flash Image(nano-banana) 是谷歌最新的图像生成与编辑模型,功能远超以往。本文演示了其在以下方面的能力:

  • 高质量图像生成
  • 基于提示词的精准图像编辑
  • 人物一致性保持
  • 风格转换与图像融合

这一模型特别适合对现有图像进行多样化改造与延展。首次尝试未必完美,但通过不断迭代,能获得理想输出

相关推荐
Elastic 中国社区官方博客1 分钟前
Elastic 在 AWS re:Invent:总结一年在 agentic AI 创新中的合作
大数据·人工智能·elasticsearch·搜索引擎·云计算·全文检索·aws
IvorySQL5 分钟前
版本发布| IvorySQL 5.1 发布
数据库·人工智能·postgresql·开源
AI营销资讯站8 分钟前
AI营销内容生产新范式,原圈科技多智能体平台赋能全球化出海新机遇
人工智能
free-elcmacom8 分钟前
机器学习高阶教程<6>推荐系统高阶修炼手册:混排、多任务与在线学习,解锁精准推荐新境界
人工智能·python·学习·算法·机器学习·机器人
pingao1413789 分钟前
气象监测新纪元:多功能自动站如何赋能智慧城市
人工智能·智慧城市
独自归家的兔10 分钟前
基于GUI-PLUS 搭配 Java Robot 实现智能桌面操控
java·开发语言·人工智能
我不是小upper13 分钟前
ARIMA-LSTM-Prophet 融合模型在股票预测中的应用
人工智能·rnn·lstm
黑客思维者13 分钟前
机器学习008:监督学习【回归算法】(逻辑回归)--AI世界的“是非判断题大师”
人工智能·学习·机器学习·逻辑回归
1张驰咨询115 分钟前
智慧城市交付困局:用六西格玛培训,将项目毛利从行业平均的12%提升至龙头水平的22%
人工智能·职场和发展·智慧城市·六西格玛
AI营销资讯站15 分钟前
AI营销内容生产领域原圈科技多智能体系统优势分析
大数据·人工智能