谷歌 Nano Banana Pro 炸了!硅谷 AI 半壁江山同框,网友:PS 已死

「【新智元导读】Gemini 3 Pro 刚炸完,谷歌又在深夜扔出了「AI 图像新神」Nano Banana Pro!它用像素级的恐怖细节和完美的汉字渲染告诉世界,谁才是 AI 生图真正的王者。」

Gemini 3 Pro 甫一亮相,新一代模型又接踵而至。

就在刚刚,谷歌正式祭出最强图像生成模型------Nano Banana Pro,基于最新 Gemini 3 Pro 打造。

官名称作,Gemini 3 Pro Image。

正如传闻中所言,Nano Banana Pro 就是 AI 图像界的「新神」,不论在图像编辑还是在生成上,都实现了史诗级进化。

它的知识储备更广,文字渲染超强,而且细节把控精准到了「像素级」。

不仅如此,Nano Banana Pro 在做复杂信息图简直开挂,接近工程师眼中的世界。

基准测试中,新版 Nano Banana 相较于上一代性能显著提升,GPT-Image、Flux Pro Kontext Max 根本无法相提并论。

左右滑动查看

这一次,Nano Banana Pro 还支持 4K 原生,速度更快,成本也有所提升。

生成的细节,只能用「恐怖」形容。尤其是以前生成的中文就像「鬼画符」,如今汉字水平一流。

左右滑动查看

谷歌刚官宣没几分钟,全网再度陷入狂欢,一大波实测汹涌来袭。

一句鸡汤、一句古诗,甚至是一大段文言文,Nano Banana Pro 一键直出颇有意境的图片,而且手写汉字完美到几乎没有一点瑕疵。

左右滑动查看

左右滑动查看

以上中文作品来自 X 网友:@CaomuQ625、@0xbisc、@Peanut_zhc、@frxiaobei、@0xPlato、@dylandddeng

真 PS 时代终结者,降临了!

「三个月,终极进化」

三个月前,为创意而生的 Nano Banana(Gemini 2.5 Flash)出世后,一夜爆红全网。

从修复老照片到生成 3D 迷你手办,Nano Banana 在图像编辑上树立了新里程碑。

任何人天马行空的想法,皆可变为现实。

如今,进阶版 Nano Banana Pro 出世,谷歌仅用三个月的时间,完成了另一次蜕变。

不管是产品原型,还是将数据、手写笔记转变为信息 / 专业图表,它都能一键可视化设计,让创意轻松成真!

Hassabis 称自己长期以来梦想之一,是创造出室温超导体。

这不,他让 Nano Banana Pro 帮忙脑补了一下。

「知识推理更强,直连搜索」

背靠 Gemini 3 高级推理能力,Nano Banana Pro 不仅能生成精美图像,还能创作更有用的内容。

它可以连接到 Google 搜索的庞大的知识库,从快速生成食谱,到可视化天气、体育赛事等实时信息,皆可轻松实现。

如下图所示,Nano Banana Pro 通过搜索获取实时天气信息,构建了一张波普艺术风格的信息图表。

相比之前的图像生成模型,Nano Banana Pro 在内容准确性上显著提升,能生成更贴近事实的素材。

当启用基于 Google 搜索的功能时,模型将直接连接实时网络内容,确保输出内容与最新数据一致。

这对于需要精确呈现的应用场景特别有价值,比如生物结构图、历史地图。

就比如,让 Nano Banana Pro 创建一个室内植物「海龟串」(String of Turtles)的信息图表,包含原产地、养护要点和生长习性等信息。

提示词:制作一张关于这种植物的信息图表,重点关注有趣的信息

它还可以生成精准的教育演示图,无论是理解全新知识,还是呈现复杂信息。

下图中,Nano Banana Pro 生成了自行车护理的步骤图。

再比如,它可以直出白光通过三棱镜被分解成彩色光,又通过第二个三棱镜重新组合成白光的过程。

「文字秒生,还支持多语种」

在文字渲染上,Nano Banana Pro 再次刷新天花板。

不论是简短的标语,还是长段落,它都能在图像中直接生成渲染精准、清晰易读的文本,堪称目前最佳模型。

这正是因为在理解图像深度与细节方面的卓越表现,Gemini 3 为图像编辑与创作开启了全新可能。

如今,人们可以在样品、海报中融入更丰富的文字细节,体验更多元的纹理、字体与书法效果。

相较于 Nano Banana,Pro 版更擅长处理逻辑和语言,生成清晰、准确且完美融合的文本。

下图中,生成了一张创意美食摄影,其中每个单词都用与食物相关的实际食材,以艺术形式拼写出来。

提示词:制作 8 个精致的极简主义 Logo,每个都是一个有趣的食物单词,并用逼真的食物制作字母来表达这个单词的含义。构图:在单一纯白色背景上渲染所有 Logo

而且,用 Nano Banana Pro 做营销物料、教育内容、应用程序等,特别合适。

在 Google AI Studio 漫画生成器中,可以生成独一无二的多页漫画,连对白字体、画风都可以玩出高级花样。

「细化细节:相机、灯光与格式」

虽然简单的提示词依然有效,但要获得专业级的结果,需要更具体的指令。在编写提示词时,请超越基础描述,考虑以下高级要素:

  • **构图与纵横比:**定义画布。(例如:一张 9:16 的垂直海报;富有电影感的 21:9 广角镜头)
  • **相机与灯光细节:**像电影摄影师那样执导镜头。(例如:低角度镜头,浅景深(f/1.8);黄金时刻的逆光创造出长长的阴影;带有柔和青色调的电影色彩分级)
  • **特定文本集成:**清楚说明应该出现的文本内容及其外观。(例如:标题「URBAN EXPLORER」以粗体、白色无衬线字体呈现在顶部)
  • **事实约束(用于图表):**说明对准确性的要求,并确保你的输入本身是符合事实的。(例如:科学准确的横截面图;确保维多利亚时代的历史准确性)
  • **参考输入:**使用上传的图像时,明确定义每张图像的作用。(例如:使用图像 A 作为角色的姿势,图像 B 作为艺术风格,图像 C 作为背景环境)

「提示词示例:创意技巧展示」

不同的提示词策略可以帮助你创作从超写实编辑到奇幻新世界的各种内容。

「1. 生成具有惊人文本渲染效果的视觉作品」

清晰、易读的文本有助于创作出极具冲击力的海报、复杂的图表,甚至是精细的产品样品。

提示词:为这个场景创建一个黑白故事板草图,展示电影的定场镜头、中景镜头、特写镜头和 POV 镜头

提示词:创建一张图片,显示短语「How much wood would a woodchuck chuck if a woodchuck could chuck wood」(如果一只土拨鼠能扔木头,它能扔多少木头)由土拨鼠扔出的木头拼成

「2. 利用现实世界知识进行创作」

Nano Banana Pro 可利用 Gemini 3 的现实世界知识和深度推理能力,提供精确、详尽且丰富的图像结果。

比如,制作一个豆蔻茶(Elaichi Chai)的分步信息图表:

「3. 翻译并将你的创意本地化」

生成本地化文本,或翻译图像内的文本。

在多种语言下,预览产品的外观,为进军国际市场做好准备,并创建适用于不同地区的海报和信息图表。

提示词:将三个黄色和蓝色易拉罐上的所有英文文本翻译成韩文,同时保持其他所有内容不变

「4. 使用工作室级控制进行编辑」

利用丰富的控制选项,可以直接调整灯光和相机设置,如角度、焦点、色彩分级等,进而实现专业级的效果。

比如,应用照明和焦点控制将场景从白天转换为夜晚:

提示词:将此场景变为夜间

自然,也可以反过来:将此场景从夜晚变为白天:

或者,通过调整景深或焦点(例如,聚焦于花朵)来突出构图的细节:

提示词:聚焦于花朵

「5. 精确调整尺寸」

尝试不同的纵横比,并在各种产品中生成 1K、2K 或 4K 分辨率的清晰视觉效果。

提示词:通过减少背景将纵横比更改为 1:1。角色保持在当前位置

「6. 混合图像并保持多角色一致性」

即便多个角色出现在同一画面中,也能保持其特征的一致性和相似度。

提取多达 6 到 14 张(输入数量因平台而异)完全不相关的图像,并将它们融合以创造全新的作品。

提示词:将这些图像组合成一张 16:9 格式的适当排列的电影感图像,并将人体模型上的裙子更改为图像中的裙子

「7. 创建并保持你的品牌外观与调性」

渲染并应用具有一致品牌风格的设计,轻松将概念可视化。

将图案、Logo 和艺术作品无缝贴合在 3D 物体和表面上------从服装到包装------同时保留自然的光照和纹理效果。

提示词 1:

创建一个图形风格的流畅 Logo,这是一种充满活力且趣味盎然的文字插图形式,深深植根于 20 世纪 60 年代和 70 年代的复古美学,大致基于草图进行创作。其标志性特征是一种时髦的、受迷幻艺术启发的字体,具有柔和、圆润且流畅的字母形态。不要完全照搬草图,而是从中汲取灵感。字母被巧妙地扭曲、拉伸和压缩,摒弃僵硬的结构,相互融合形成一个连贯、可识别的形状。

这种被称为图形文字(Calligram)的技法巧妙地融合了文本与图像,单词的形态在视觉上体现了其含义。单词「WAVE」被艺术地排列成波浪的流线型轮廓。该设计是一个巧妙的视觉双关语,使信息瞬间可被理解且令人难忘。

配色方案强化了复古感,采用简单的双色调方案,以温暖、通常柔和或大地色调的浅蓝色为背景,搭配深蓝色的 Logo。这种选择增强了作品的怀旧魅力。整体效果呈现出一种异想天开的怀旧感和巧妙的平面设计风格。这是一种大胆而平易近人的风格,通过形状和单词的无缝结合传达简单、积极的信息,产生直接而令人愉悦的视觉冲击。

提示词 2:

现在逐个创建视觉识别系统,使用 10 个高质量样品,包含各种相关产品、广告、广告牌、公交车站牌等。一次生成一个,每个均为 16:9 比例。

「使用和局限性」

想要体验 Nano Banana Pro,只需在 Gemini 应用程序中选择「使用 Thinking 模型创建图像」即可。

免费用户的赠送额度用完之后,将恢复到原始的 Nano Banana 模型;而氪金的 Google AI Plus、Pro 和 Ultra 会员,则会有更高的 Pro 额度。

对于专业人士,谷歌将会陆续上线到所有的平台,包括 Google Ads,Google Slides,Google Vids,Gemini API,Google AI Studio,Google Antigravity,Vertex AI,Gemini Enterprise,Flow 等。

不过,虽然 Nano Banana Pro 已经很强了,但它在一些领域仍有待改进:

  • **视觉与文本保真度:**在渲染小字号文本、精细细节以及生成准确拼写方面,效果可能尚不完美。
  • **数据与事实准确性:**请务必核实图表、信息图等基于数据的视觉内容的事实准确性。
  • **翻译与本地化:**多语言文本生成可能会出现语法错误,或未能精准捕捉特定的文化差异。
  • **复杂编辑与图像融合:**图像融合或光照调整等高级编辑任务,有时可能会产生不自然的伪影。
  • **角色特征:**虽然通常表现可靠,但在多次编辑过程中,角色特征的一致性可能会出现波动。

值得一提的是,在 SynthID 数字水印技术的加持下,我们可以将图像上传到 Gemini 应用中,直接询问它是否由 Google AI 生成。

最后的最后,还是想要吐槽一下,一周内 AI 大事件四连更,真是有点心力交瘁了...

参考资料:

blog.google/technology/...

blog.google/products/ge...

blog.google/technology/...

x.com/Gorden_Sun/...

x.com/0xbisc/stat...

x.com/CaomuQ625/s...

x.com/Peanut_zhc/...

x.com/frxiaobei/s...

x.com/0xPlato/sta...

x.com/dylandddeng...

相关推荐
m***D2861 小时前
机器学习总结
人工智能·机器学习
新智元1 小时前
51 岁周志华、53 岁刘云浩,当选中国科学院院士!
人工智能·openai
魁首2 小时前
初识 ACP (Agent Client Protocol)
人工智能·ai编程·mcp
周末程序猿2 小时前
开源项目|不一样的思维导图
人工智能·后端
Wgrape2 小时前
一文了解常见AI搜索方案的代码实现
人工智能·后端
Vadaski2 小时前
私有 Context 工程如何落地:从方法论到实战
人工智能·程序员
刘国华-平价IT运维课堂2 小时前
红帽企业Linux 10.1发布:AI命令行助手、量子安全加密和混合云创新
linux·运维·服务器·人工智能·云计算
Xiaok10182 小时前
在 Jupyter Notebook 中启动 TensorBoard
人工智能·python·jupyter
亚马逊云开发者3 小时前
相得益彰:Mem0 记忆框架与亚马逊云科技的企业级 AI 实践
人工智能