Nano Banana一战封神,实际效果测评

背景

前段时间 GPT 4o 的 AI 生图掀起了"吉卜力热潮",很多网友脑洞大开,创作出非常有意思图片,如 3D Q版人物立体相框、角色穿越传送门 、Q版角色表情包等。

近期谷歌 Gemini 团队推出的 Nano Banana(Gemini 2.5 Flash Image),与其他竞品相比,该模型生成速度更快、成本更低、图像生成与编辑能力更强,网友们不吝赞美之词,一夜之间,Nano Banana 成为了 AI 图像编辑模型的新宠。

讲到这里,很多朋友可能已经跃跃欲试了,想问在哪里使用呢? 按照使用

大家可以在 谷歌的 AI Studio 平台(aistudio.google.com/prompts/new...

全球首个设计智能体 Lovart 也快速支持了 Nano Banana 模型,支持试用。

案例

看到网友都夸好,到底怎么样呢? 我找到 2025 年谷歌开发者大会的照片生成了一些图片看看效果。 照片转手办 使用照片转手办的提示词看看效果如何:

csharp 复制代码
turn this photo into a character figure. Behind it, place a box with the character's image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. set the scene indoors if possible

生成界面如下:

Nano Banana

GPT 4o

GPT 4o

生成效果如下:

Nano Banana

GPT 4o

可以看到同样地提示词,默认的配置下 Nano Banana 生成的效果更真实一些,GPT 4o 部分汉字还是存在乱码。

照片转3D Q 版人物

使用照片转3D Q 版人物的提示词看看效果如何:

css 复制代码
根据所附照片创建一个风格化的3D Q版人物角色,准确保留人物的面部特征和服装细节。角色的左手比心(手指上方有红色爱心元素),姿势俏皮地坐在一个巨大的Instagram相框边缘,双腿悬挂在框外。相框顶部显示用户名『敖丙』,四周漂浮着社交媒体图标(点赞、评论、转发)。

生成过程如下:

Nano Banana

GPT 4o

生成效果如下:

可以看到同样地提示词,默认的配置下 Nano Banana 生成的效果更真实和立体一些,但是汉字存在乱码;GPT 4o 效果也蛮不错但是偏卡通,但是有些指令没有被遵循,如相框顶部的「敖丙」字样并没有在图片中画出来。

3D Q 版形象穿过传送门

提示词

css 复制代码
照片中的角色的 3D Q 版形象穿过传送门,牵着观众的手,在将观众拉向前时动态地回头一看。传送门外的背景是观众的现实世界,一个典型的程序员的书房,有书桌,显示器和笔记本电脑,传送门内是角色所处的3D Q 版世界,细节可以参考照片,整体呈蓝色调,和现实世界形成鲜明对比。传送门散发着神秘的蓝色和紫色色调,是两个世界之间的完美椭圆形框架处在画面中间。从第三人称视角拍摄的摄像机角度,显示观看者的手被拉入角色世界。2:3 的宽高比。

过程:

最终效果: 可以看到同样地提示词,默认的配置下 Nano Banana 生成的效果更偏写实一些,电脑屏幕灯光效果还原得都不错,但是长宽比搞反了;GPT 4o 偏卡通,长宽比遵循很好,但是笔记本并没有在图片中画出来。

衣服穿搭

sql 复制代码
show woman wearing the outfit

生图过程

生图结果

在这个 Case 上同样地提示词两个模型表现相当,整体两个模型表现都很不错。Nano Banana 短裤颜色偏淡一些,GPT 4o 更深一些,白色短袖的袖口细节上 Nano Banana 还原度更好一些,而且关注到了原始图片中的耳环,而且背景虚化的效果特别好。

地图转游戏风格

我截取阿里巴巴 C 区的地图,让模型制作地标和等距图像(仅操场),采用《主题公园》游戏的风格。

提示词

java 复制代码
 Take this  location and make the landmark and isometric image (playground only), in the style of the game Theme Park

过程

生图结果

在这个 Case 上同样地提示词两个模型都存在一些问题。提示词中限定了仅处理操场这部分,这个被 Nano Banana 忽视了,但整体的视觉效果蛮不错。GPT 4o 更符合 Theme Park 游戏的风格,但也忽视了提示词中仅处理操场部分。

总结

通过上述 Case 结合网上的相关测评,可以看到 Nano Banana 有几大优势:

超强的上下文感知编辑能力 它不是简单抠图粘贴,而是真正能够理解任务与环境的关系,在替换背景后,重新渲染光线、反射和融入感,效果更加逼真。

精准的物品植入与修改 Nano Banana 可以比较精准地进行物品添加和替换,能够比较好地处理遮挡关系,这对于广告营销和电商领域带来了福音。

对 3D空间理解深刻 能够比较好地理解 2D 图片中隐藏的 3D 空间信息。

风格一致性更强图片:

基于一张初始照片,Nano Banana 可以延展出一系列的相同质感的图片。

同时,我们也可以看到 Nano Banana 并不完美,比如存在汉字乱码,部分指令没有被遵循(如长宽比)等问题。

外行人看热闹,内行人看门道。GPT 4o 开始,很多人已经开始将技术转化成商业价值,比如根据图片制作挂件、贴纸、3D 摆件等盈利。 Nano Banana 能够进行精准的物品植入与修改,在广告和电商场景也非常具有想象力。

未来模型能力会越来越强,大家不要盯着模型不能做什么,要多挖掘可以发挥价值的场景。甚至,可以提前思考当这些文生图模型的这些问题都不存在时,又可以在哪些场景上发会出更大的价值,提前布局。

同时,技术也是一把双刃剑。网上也常听到有人利用大模型生成变质的水果,摔坏的商品等申请退货的情况。如何高效识别出 AI 造假的内容也是未来需要解决的问题。

相关推荐
stbomei5 小时前
2024 年 AI 技术全景图:大模型轻量化、多模态融合如何重塑产业边界?
人工智能
咔咔一顿操作6 小时前
第六章 Vue3 + Three.js 实现高质量全景图查看器:从基础到优化
开发语言·javascript·人工智能·ecmascript·threejs
学步_技术6 小时前
增强现实—Gated-attention architectures for task-oriented language grounding
人工智能·语言模型·ar
fantasy_arch6 小时前
8.5 循环神经网络的从零开始实现
人工智能·rnn·深度学习
喜欢吃豆6 小时前
从像素到篇章:深入剖析光学字符识别(OCR)的技术原理
人工智能·算法·语言模型·自然语言处理·大模型·ocr
LaughingZhu6 小时前
Product Hunt 每日热榜 | 2025-09-01
人工智能·经验分享·搜索引擎·产品运营
水印云6 小时前
视频提取文字用什么软件好?分享6款免费的视频转文字软件!
人工智能·音视频·语音识别
这张生成的图像能检测吗6 小时前
(论文速读)BlenderGym:图形编辑的基准基础模型系统
人工智能·计算机视觉·图像生成·图像编辑