模型代号:Gemini 3 Pro Image Preview
发布日期:2025年11月20日
一、概述:模型定位与核心架构
Nano Banana Pro(内部代号 Gemini 3 Pro Image Preview)是 Google DeepMind 于 2025 年 11 月发布的最新一代图像生成与编辑模型。它复用 Gemini 3 Pro 的 Transformer 骨干,在词表中增加视觉 token,并接入图像解码器,从而实现了"文本+图像 → 图像"的多模态生成能力。
与传统扩散模型(如 Stable Diffusion、Midjourney、DALL-E)不同,Nano Banana Pro 的最核心特征是:它是一个自回归图像生成模型,而非扩散模型。
这一架构差异带来了一个关键特性:底层永远是整图 token 重绘,但通过多层约束机制,用户体验可以达到接近"局部修改"的效果。
以下图表简要概括其核心特点:
|-----------------|-------------------------|
| 架构类型 | 自回归 Transformer(非扩散模型) |
| 最高输出分辨率 | 4K(3840×2160) |
| 多图参考 | 最多 14 张输入图像 |
| 文本渲染 | 支持海报、招牌、图表中的精确文字生成 |
| 可复现性 | 不支持 seed 参数(每次生成皆为概率采样) |
| 水印 | 所有生成/编辑图像均嵌入 SynthID 水印 |
二、底层架构:Gemini 3 Pro Image 自回归生成机制
理解 Nano Banana Pro 的生图逻辑,首先需要理解它在架构层面与传统扩散模型的根本区别。
2.1 传统扩散模型的生成逻辑
扩散模型(Stable Diffusion、Midjourney、DALL-E 2/3)的核心原理是:
- 从高斯噪声开始,通过 U-Net 网络逐步去噪
- 每一步去噪都依赖文本嵌入的引导
- 最终通过 VAE 解码器转换为像素图像
- 图生图时:先给原图加噪,再从这个"有噪版原图"开始去噪生成新图
2.2 Nano Banana Pro 的自回归生成逻辑
Nano Banana Pro 的生成流程完全不同。它像 LLM 生成文本一样生成图像:
- 多模态输入解析:Gemini 3 同时摄入文本 prompt 和最多 14 张参考图,理解整体任务
- 结构化推理(内部蓝图):模型先在内部"想清楚":画面布局、人物身份、光照、保留/修改的区域
- 原图视觉 token 编码:通过类似 VQ-VAE 的离散化机制,将原图压缩为视觉 token 序列
- 自回归 Token 预测:在 Gemini 3 注意力机制下,从左到右、从上到下逐一预测输出图的每个视觉 token
- 解码与升采样:输出 token 通过 16 位色深解码器还原为原生 2K 图像,再智能升采样至 4K
关键区别:即便你只让它"改领带颜色",模型内部仍然要把整张图压缩成 token,然后从头到尾重新预测一遍输出 token 序列。没有"只动一小块像素、其余不动"的物理路径。
三、图生图(img2img)完整工作流程
以下是一次完整图生图的五个阶段:
3.1 阶段一:多模态输入解析
Gemini 3 Pro 同时接收文本描述和最多 14 张参考图像,理解你要做什么。从第一步就是多模态的,而非像扩散模型那样先用 CLIP 编码文本、再单独处理图像。
3.2 阶段二:结构化推理(内部蓝图)
这是 Nano Banana Pro 最独特的能力。模型会在内部"想清楚"以下内容,形成不可见的"创作蓝图":
- 画面布局:主体在哪里,背景是什么
- 光照与影调:光源方向、色温、对比度
- 保留区域 vs 修改区域:哪些 token 需要复制原图,哪些需要重新生成
- 主体一致性:人物/产品在不同角度、不同光照下的特征保持
3.3 阶段三:原图视觉 Token 编码
原图通过类似 VQ-VAE(Vector Quantized Variational Autoencoder)的离散化机制,被压缩为视觉 token 序列。每个 token 代表图像中的一个小区域的内容。
3.4 阶段四:自回归 Token 预测
这是生成的核心环节。在 Gemini 3 的注意力机制下,模型从左到右、从上到下逐一预测输出图的每个视觉 token。
每个 token 生成时都能"看到"完整的 prompt token 和原图 token,但每一步采样都是从概率分布中随机取样(受 temperature 和 top-k 控制)。这就是它不支持 seed 固定复现的原因。
3.5 阶段五:解码与升采样
输出 token 序列通过 16 位色深解码器还原为原生 2K 图像,再智能升采样至 4K。整个过程只需一次 token → pixel 转换,不像扩散模型需要反复 VAE 编解码。
四、四层约束机制详解:为什么"重绘"却能"像局部修改"?
这是 Nano Banana Pro 工程团队的真正功夫所在。在自回归生成流程上叠加了四层硬约束,让模型在重绘时"主动选择"复现原图未编辑区域的 token。
4.1 第一层:Mask 硬约束(像素级)
这是最强力的约束层,也是实现 pixel-perfect 的最核心技术手段。
原理:
- 用户提供一张与原图同尺寸的黑白 mask 图
- 白色区域:允许 AI 生成新 token
- 黑色区域:强制输出 token 必须复制原图对应位置的 token
- 在自回归生成时,相当于给模型加了一条"硬复制规则",不可违反
结果:黑色区域的 token 完全等于原图 token,输出像素与原图完全一致。
4.2 第二层:Bounding Box 区域定位(矩形级)
更轻便的方案,不需要手动绘制 mask。
原理:
- 支持坐标归一化到 0--1000 范围的 bounding box 参数
- 用户只需指定矩形区域,如 [200, 150, 600, 700]
- 系统自动将 BBox 转换为内部 mask 约束
适用场景:已知矩形区域的编辑,如替换产品包装上的某个区域。
4.3 第三层:Gemini 3 语义化定位(对象级)
这是最"魔法"的一层,用户只需自然语言指令。
原理:
- 用户输入:"把背景换成沙滩"
- Gemini 3 推理骨干自动识别"背景"是图中哪些 token
- 生成隐式 mask,对识别到的区域应用约束
- 属于 mask-free 编辑模式
适用场景:覆盖大多数日常编辑场景,最常用的模式。
4.4 第四层:训练数据"未提及即保留"偏置(全局)
这是加载在模型权重中的隐性规则,推理时自动生效,无需用户额外配置。
原理:
- 海量"原图-编辑图"配对训练数据
- 模型学到隐性规则:除非 prompt 明确要求改,否则其他区域要尽量逐 token 复制原图
- 这一偏置固化在权重中,推理时自动生效
4.5 四层约束机制对比总结
|----------------------|--------------|--------------|--------------|
| 约束机制 | 控制粒度 | 用户成本 | 适用场景 |
| Mask 硬约束 | 像素级 | 需绘制 mask | 精准修复/抠图替换 |
| Bounding Box | 矩形区域 | 仅传坐标 | 已知矩形区域的编辑 |
| 语义化定位 | 语义对象 | 仅文本指令 | 大多数日常编辑 |
| 训练偏置 | 全局 | 无需配置 | 所有场景默认生效 |
四层约束并非互斥,而是叠加生效。最严格组合:Mask + Bounding Box + 语义指令,可将 pixel-perfect 体验推到极致。
五、与扩散模型(Stable Diffusion)的本质区别
|---------------|-------------------------|----------------------------------|
| 对比维度 | Nano Banana Pro | Stable Diffusion |
| 架构类型 | 自回归 Transformer | 扩散模型(U-Net + VAE) |
| 生成原理 | token → token 逐个预测 | 加噪 → 去噪逐步还原 |
| 图生图方式 | 整图 token 重绘 + 约束复制 | 原图加噪 → 从噪声版重新去噪 |
| 未编辑区域 | 约束到位可 pixel-perfect | 总有轻微漂移(VAE 误差累积) |
| 多轮编辑 | 5--10 轮无明显质量损失 | 反复 inpainting 会越来越糊 |
| 可复现性 | 不支持 seed | 支持 fixed seed |
| 文本渲染 | 精确,商业可用 | 往往乱码 |
| 多图参考 | 最多 14 张 | 通过 ControlNet/IP-Adapter 实现,复杂度高 |
| 主体一致性 | 内置支持,多角度不变脸 | 需额外手段(LoRA、IP-Adapter) |
六、多轮编辑为什么不会漂移?
这是 Nano Banana Pro 相比 Stable Diffusion 的一个重要优势。原因有三点:
- 自回归架构只需一次 token → pixel 转换,不像扩散模型需反复 VAE 编解码,因此不会累积重编码误差
- Mask 硬约束让未编辑区域逐 token 复制原图,多次迭代几乎不引入新随机性
- 对比:传统 Stable Diffusion 反复 inpainting 几次就会"糊",而 Nano Banana Pro 可支撑 5--10 轮迭代编辑而无明显质量损失
七、实践指南
7.1 生图模式(Text-to-Image)
从零生成图像时,流程如下:
- 输入文本 prompt(推荐使用叙事性描述,而非关键词堆砌)
- Gemini 3 推理骨干用"世界知识"理解场景
- 内部构建创作蓝图(布局、光照、物体关系)
- 自回归生成视觉 token 序列
- 解码为 2K 图像,升采样至 4K
7.2 图生图模式(Image-to-Image)
基于现有图像进行编辑时,推荐按以下策略选择约束层:
|-------------------|--------------|-----------------------|
| 编辑场景 | 推荐约束 | 示例 Prompt |
| 换背景 | 语义化定位 | "把背景换成海边日落" |
| 产品包装局部修改 | Bounding Box | "把这个区域的文字改为限时优惠" |
| 精确修复/抠图替换 | Mask 硬约束 | "在白色区域生成新产品图" |
| 换衣服保持脸部 | 语义化定位 + 训练偏置 | "把上衣改成蓝色衬衫,保持脸部和发型不变" |
7.3 写 Prompt 的核心原则
- 描述场景,而非堆砌关键词 --- Nano Banana Pro 有极强的语言理解能力
- 明确告诉模型什么不要改 ---"保持脸部、姿态、光照、镜头角度不变"
- 重要元素(文字、logo、产品标签)可能无法完全精确复制 ---建议在传统工具中处理这些元素
- 如果保留效果不理想,停止用 AI,转用传统编辑器处理那部分
八、总结:机制与体验的分离
理解 Nano Banana Pro 的关键在于意识到:底层机制和用户体验是两回事。
|---------------|--------------|----------------|
| 视角 | 真实情况 | 用户感受 |
| 底层架构 | 整图 token 重绘 | 看起来像局部修改 |
| 未编辑区域 | 重新生成的 token | 几乎等于原图像素 |
| 编辑边界 | 自回归连续生成 | 自然过渡无 artifact |
| 编辑指令 | 通过约束传入 | 自动匹配光影/视角 |
一句话总结:Nano Banana Pro 并没有发明新范式,而是在 Gemini 3 自回归骨干上,通过约束工程的全栈协同,把整图重绘包装成了接近真局部修改的产品体验。
九、参考资料
- Google DeepMind --- Gemini 3 Pro Image 官方文档: deepmind.google/models/gemini-image/pro/
- 温拓智能---深度解析 Nano Banana Pro 图片生成原理: blog.wentuo.ai
- YingTu --- Nano Banana Inpaint 完整指南: yingtu.ai
- Higgsfield --- Nano Banana Pro Inpaint: higgsfield.ai