谷歌官方在 X 上发布了一个指南,手把手教你用 Nano Banana Pro。我对谷歌官方提到的 10 个技巧进行总结下,感兴趣的可以去看原帖。

bash
地址:https://x.com/GoogleAIStudio/article/1994480371061469306
00、前置介绍
Nano-Banana Pro 相较于上一代模型有了重大飞跃,从趣味图像生成转向实用专业资产制作。
它在文本渲染、角色一致性、视觉合成、世界知识(搜索)以及高分辨率(4K)输出方面表现出色。
记住,Nano-Banana Pro 是一种思考模型。它不仅仅匹配关键词,它还能理解意图、物理和构图。
为了获得最佳效果,不要在使用各种关键词标签了。
❌ 不要这样写: "酷炫的汽车,霓虹灯,城市,夜晚,8K。"
✅ 要这样写:"一幅未来感十足的运动汽车在夜晚的雨中东京街头飞驰的电影宽景镜头。霓虹灯牌反射在湿漉漉的路面和汽车的金属车身上。"
提示词尽可能描述的详细,不要模糊。一旦是通用的提示词就会生成通用的结果。可以明确主题、场景、光线和氛围。
不要说"一个女人",而要说"一个穿着复古香奈儿风格套装的成熟老年妇女"。
材质: 描述质感。"哑光表面"、"拉丝钢"、"柔软天鹅绒"、"皱褶纸张"。
因为模型具有思考能力,提供背景信息有助于它画出更好的效果。
比如:"创作一张三明治的图片 ,用于巴西高端美食烹饪书"。(模型会推断出专业的摆盘、浅景深和完美的光线)
下面主要按照如下几个模块总结 Google 发布的对 Nano Banana Pro 的教程。
-
文本渲染、信息图表与视觉合成
-
角色一致性与病毒式缩略图
-
使用谷歌搜索进行基础设置
-
高级编辑、修复与着色
-
维度转换(2D ↔3D)
-
高分辨率与纹理
-
思维与推理
-
一次性故事板与概念设计
-
结构控制与布局指导
01、文本渲染、信息图表与视觉合成
Nano-Banana Pro 能够生成清晰、风格化的文本,有几种场景比较常用。
① 内容压缩:把 PDF 文件或大量文字复制进去,让模型作为视觉辅助工具,帮你"压缩"成一张可视化的图表或海报。
② 风格生成:想要啥风格直接说,可以生成不同风格的外观,比如"技术图表"、"手绘白板"等等。
③ 文字生成:图上想写啥字?直接用引号引起来告诉它,它保证不给你写成乱码。
比如:
财报信息图: [谷歌最新财报 PDF 输入] "生成一份干净、现代的信息图,概述本次财报的主要财务亮点。包括'收入增长'和'净利润'的图表,并用风格化的引述框突出 CEO 的关键语录。"

复古信息图: 制作一份复古的、1950年代风格的美国餐厅历史信息图。包括"食物"、"点唱机"和"装饰"三个不同部分。确保所有文字清晰易读,并且风格与那个时期相符。

技术图示: 创建一份正投影蓝图,描述该建筑的平面图、立面图和剖面图。用专业建筑字体清楚标注"北立面"和"主入口"。格式为16:9。

白板总结(教育用): "用手绘白板图示总结'Transformer 神经网络架构'的概念,适合大学讲座。使用不同颜色的标记区分编码器和解码器块,并包含清晰的'自注意力'和'前馈'标签。"

02、字符一致性与视频缩略图
Nano-Banana Pro 可以将参考图片中的特定人物或角色放入新的场景中,而不扭曲面部特征。
你想生成的图片物体样子和你上传图片的参考一样,需要明确说明:"保持此人的面部特征与上传图片 1 完全一致"。
还需要描述在保持身份的同时,情绪或姿势的变化 。还能制作小红书或者 B 站封面,将主题与粗体图形和文本结合在一起,一次完成。
视频缩略图: 使用图片 1 中的人物设计一个病毒式视频缩略图。 面部一致性: 保持人物的面部特征与图片 1 完全一致,但将表情改为兴奋和惊讶的样子。 动作: 将人物放在左侧,指向画面右侧。
主题: 在右侧放置一张高质量的美味牛油果吐司图片。 图形: 添加一只粗体黄色箭头,将人物的手指连接到吐司上。 文字: 在中间叠加大号的流行风格文字:"3 分钟搞定!"(用白色粗边和投影效果)。 背景: 一个模糊、明亮的厨房背景。高饱和度和对比度。

"毛绒朋友"场景(群体一致性): [输入3张不同毛绒玩具的图片] "用这 3 只毛绒朋友展开一个有趣的十部分故事,他们一起去热带度假。故事情节紧凑,高潮迭起,充满情感波折,最后以一个快乐的瞬间结束。
保持所有角色的服装和身份一致 ,但他们的表情和角度应在全部 10 张图片中有所变化。确保每张图片中只有一个角色出现。"

品牌资产生成: [输入一张产品图片] "创建9张令人惊叹的时尚照片,仿佛来自获奖的时尚编辑。以此参考作为品牌风格,但加入细节和多样性,使其传达专业的设计感。请逐一生成九张图片。"

03、使用谷歌搜索进行基础验证
Nano-Banana Pro 利用谷歌搜索根据实时数据、时事或事实验证生成图像,减少在时事话题上的幻觉。
事件可视化: 根据当前旅游趋势,生成一份关于2025年访问美国国家公园最佳时间的信息图。

04、高级编辑、修复与着色
该模型还擅长通过对话,对图片中的物体进行移除或添加、修复旧照片、着色以及风格转换。
物体移除与补绘: 将这张照片背景中的游客移除,并用与周围环境相匹配的逻辑纹理(如鹅卵石和店面)填充空白区域。

漫画/连环画彩色化: [输入黑白漫画面板] "为这幅漫画面板上色。使用充满活力的动画风格调色板。确保能量光束的光影效果呈现发光的霓虹蓝色,角色的服装颜色与官方配色保持一致。"

本地化(文本翻译 + 文化适应): [伦敦公交站广告的图片] "将这个概念本地化到东京场景中,包括将标语翻译成日语。将背景改为夜晚繁忙的涩谷街头。"

照明/季节控制: [夏天的房屋图片] "将这个场景变成冬天。保持房屋的建筑完全不变,但在屋顶和院子里添加雪,并将光线改为阴冷、阴天的下午。"

05、维度转换(2D ↔ 3D)
一种强大的新功能是将2D示意图转换为3D可视化,
二维平面图转三维室内设计展示板: "根据上传的二维平面图,生成一张专业的室内设计展示板,包含在一张图片中。
布局: 一个大主图在顶部(宽角度视角的客厅),下面有三张较小的图片(主卧室、家庭办公室和三维俯视平面图)。
风格: 采用现代极简风格,所有图片都使用温暖的橡木地板和米白色墙壁。 质量: 照片级逼真渲染,柔和自然光线。"

2D 转 3D 表情包转换: "将'没事的狗'表情包变成逼真的 3D 渲染。保持构图一致,但让狗看起来像毛绒玩具,火焰看起来像真实的火焰。"

06、高分辨率与纹理
支持原生 1K 到 4K 的图像生成。这对于细节丰富的纹理或大幅面打印尤为有用。
4K 纹理生成: "利用原生高保真输出,打造一个令人惊叹、充满氛围的苔藓森林地面环境。
指挥复杂的光影效果和细腻的纹理,确保每一缕苔藓和每一道光束都以像素完美的分辨率呈现,适合作为 4K 壁纸。"

复杂逻辑(思考模式): "创建一份超逼真的美食汉堡信息图,将其拆解,展示烤制金黄的布里欧面包的纹理、煎制的肉饼的焦脆外壳,以及融化的奶酪的闪亮光泽。为每一层标注其风味特征。"

07、思考与推理
求解方程: 在白板上求解复数域内的方程 log_{x^2+1}(x^4-1)=2。请清楚地展示步骤。

视觉推理: 分析这张房间的图片,并生成一张"之前"的图片,展示房间在施工期间的样子,包括框架和未完成的石膏板。

08、一次性故事板和概念艺术
你可以生成连续的艺术作品或故事板,确保在一次会话中实现连贯的叙事流程。
创建一个引人入胜、令人上瘾的九部分故事,配以九张图片,展示一位女性和一位男性在获奖的奢华行李广告中的场景。故事应有情感的高潮与低谷,最后以一张优雅的女性与品牌标志的画面结束。
女性和男性的身份及着装必须保持一致 ,但他们可以并且应该从不同角度和距离进行拍摄。请逐一生成图片,确保每张图片都是 16:9 的横屏格式。

09、结构控制与布局指导
你可以输入一个草图来严格控制最终输出的构图和布局 。
从草图到最终广告: "根据这个草图为[产品]制作广告。"

线框图的 UI 模型: "根据这些指南为[产品]创建一个模型。"

像素艺术与 LED 显示屏: 生成一只适合完美融入此 64x64 网格图像的像素艺术独角兽精灵。使用高对比度颜色。
(提示:开发者可以通过编程提取每个格子的中心颜色,以驱动连接的 64x64 LED 矩阵显示屏)。

精灵: 一张显示一名女性在无人机上做后空翻的精灵图集,3x3 网格,序列动画,逐帧动画,方形比例。请严格按照附上的参考图片结构进行。
(提示:你可以提取每个格子制作成 GIF)
