关于nano banana模型实践的思考

Nano banana

Google提出的图片生成和编辑模型

这个不过多阐述

解决问题

这个模型重点是解决了什么问题? 为什么我们需要使用这个模型来解决问题, 对比传统的解决方案存在什么显著的优势?

解决了什么问题?

对于已有图片的二次编辑, 以及基于已有概念图的图片绘制. 这些问题都可以很好的被解决, 这是一个商业业务级别上都带来的巨大的性能提升的模型.

分享自己用到过的细致的使用场景:

  1. 科研的深度学习模型结构图绘制, 如果出现了不擅长配色, 那么可以让AI帮助你上色.
  2. 如果参考了别人的论文的模型, 现在需要重新绘制别人的结构图, 那么在缺少原绘图文件的情况下, 直接修改几个模块的配色和内容, 会较为麻烦, 因为需要自己从0绘制图片文件.

这个绘制环节如果找咸鱼外包出去也需要几十块钱到十几块钱不等.

对比已有方案的显著优势?

  1. 在缺乏图片源文件(就是例如drawio绘制出图片使用的原本的画布文件)的情况下, 修改原本图片文件中的一些内容变得极为困难.

困难体现在修改内容之前需要完全重新绘制全部的图片文件, 耗时长, 成本高

使用了AI之后, 这种修改可以让AI在10+Sec的时间完成需求, 耗时短, 成本低

缺点

  1. 该模型无法通过对话理解图片中细节部分内容的修改, 它很多时候的操作都是一些简单的(不需要深入理解的概念性的)问题

举一个例子: 我认为模型在相邻像素点之间的绘制是高度相关的(所以, 模型处理的好) , 但是, 有些时候, 我们的图片元素呈现出有间隔的(例如, 物体之间存在空白背景等分割了物体像素点之间的直接联系)多个物体之间的关联(这些物体相互构成了一个图片的组, 一个组包含多个物体, 组内存在理解上的语义联系).

  1. 一旦模型第一次无法满足你的需求, 后面也就很难满足了, 因为prompt能给这个模型带来的性能和准确度提升有限.(我使用之后是这么认为的)
  2. 无法处理小目标, 如果文本内容的像素相距太近, 或者占用空间太小, 可能导致模型无法正常处理, 或者把2个元素当成1一个元素

构建prompt

参考 https://zhuanlan.zhihu.com/p/1944320444653105712 专栏中提到的内容, 但是指的注意的是: AI提示词工程需要的是临机应变, 尤其是我认为针对nano banana模型提示词格式很多时候并没有最佳实践范式

个人理解

我说明一下我的个人对于构建这个模型提示词的理解, 比较宽泛.

  1. 不同于其他的模型, 这个模型的任务描述不需要特别详细, 过多的细节描述对于nano banana来说可能难以做到. 最好是较为宽泛的限制, 给模型一定的操作空间, 模型可以操作的空间越大, 随机出效果可能会更加好.
  2. 英语描述 >> 中文描述, 使用英文提示词
  3. 尽可能是自然语言描述, 关键词描述不太适用.

LLM辅助提示词生成

考虑到需要连贯的英文自然语言来描述修改的需求, 所以, 使用LLM辅助进行提示词生成没准是个不错的选择.

我考虑使用gemini

复制代码
给我一个英文提示词, 我需要操作nano banana模型进行图片编辑, 实现[你的需求].

- 提示词不要过于冗长

从而, gemini往往会给你多个简短提示词, 选择你需要的prompt

TIP

最后, 我认为人为的核验和校对十分重要, 这个模型还是容易出现单词拼写错误的情况. 针对错误的地方, 配合手动的PS修复图片内容.

相关推荐
云宏信息13 小时前
赛迪顾问《2025中国虚拟化市场研究报告》解读丨虚拟化市场迈向“多元算力架构”,国产化与AI驱动成关键变量
网络·人工智能·ai·容器·性能优化·架构·云计算
Insight-n15 小时前
低代码数字化时代的开发新范式
低代码·ai
带刺的坐椅19 小时前
Solon v3.4.6, v3.5.4, v3.6.0-M1 发布。正式开始 LTS 计划
java·spring·ai·web·solon·mcp
守城小轩19 小时前
从零开始学习n8n-一文读懂n8n
ai·n8n
Learn Beyond Limits19 小时前
Choosing the Number of Clusters|选择聚类的个数
人工智能·深度学习·神经网络·机器学习·ai·聚类·吴恩达
科技峰行者1 天前
阿里云无影发布首个Agentic Computer形态的个人计算产品
人工智能·阿里云·ai·agent
Elastic 中国社区官方博客1 天前
使用 Elasticsearch 构建 AI Agentic 工作流
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
Nukepayload21 天前
基于洞察的智能编程法——从直觉到代码的原型炼成术
ai·提示词工程
万俟淋曦1 天前
【ROS2】通讯机制 Topic 常用命令行
人工智能·ai·机器人·ros·topic·ros2·具身智能
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2025-09-24)
ai·开源·大模型·github·ai教程