关于nano banana模型实践的思考

Nano banana

Google提出的图片生成和编辑模型

这个不过多阐述

解决问题

这个模型重点是解决了什么问题? 为什么我们需要使用这个模型来解决问题, 对比传统的解决方案存在什么显著的优势?

解决了什么问题?

对于已有图片的二次编辑, 以及基于已有概念图的图片绘制. 这些问题都可以很好的被解决, 这是一个商业业务级别上都带来的巨大的性能提升的模型.

分享自己用到过的细致的使用场景:

  1. 科研的深度学习模型结构图绘制, 如果出现了不擅长配色, 那么可以让AI帮助你上色.
  2. 如果参考了别人的论文的模型, 现在需要重新绘制别人的结构图, 那么在缺少原绘图文件的情况下, 直接修改几个模块的配色和内容, 会较为麻烦, 因为需要自己从0绘制图片文件.

这个绘制环节如果找咸鱼外包出去也需要几十块钱到十几块钱不等.

对比已有方案的显著优势?

  1. 在缺乏图片源文件(就是例如drawio绘制出图片使用的原本的画布文件)的情况下, 修改原本图片文件中的一些内容变得极为困难.

困难体现在修改内容之前需要完全重新绘制全部的图片文件, 耗时长, 成本高

使用了AI之后, 这种修改可以让AI在10+Sec的时间完成需求, 耗时短, 成本低

缺点

  1. 该模型无法通过对话理解图片中细节部分内容的修改, 它很多时候的操作都是一些简单的(不需要深入理解的概念性的)问题

举一个例子: 我认为模型在相邻像素点之间的绘制是高度相关的(所以, 模型处理的好) , 但是, 有些时候, 我们的图片元素呈现出有间隔的(例如, 物体之间存在空白背景等分割了物体像素点之间的直接联系)多个物体之间的关联(这些物体相互构成了一个图片的组, 一个组包含多个物体, 组内存在理解上的语义联系).

  1. 一旦模型第一次无法满足你的需求, 后面也就很难满足了, 因为prompt能给这个模型带来的性能和准确度提升有限.(我使用之后是这么认为的)
  2. 无法处理小目标, 如果文本内容的像素相距太近, 或者占用空间太小, 可能导致模型无法正常处理, 或者把2个元素当成1一个元素

构建prompt

参考 https://zhuanlan.zhihu.com/p/1944320444653105712 专栏中提到的内容, 但是指的注意的是: AI提示词工程需要的是临机应变, 尤其是我认为针对nano banana模型提示词格式很多时候并没有最佳实践范式

个人理解

我说明一下我的个人对于构建这个模型提示词的理解, 比较宽泛.

  1. 不同于其他的模型, 这个模型的任务描述不需要特别详细, 过多的细节描述对于nano banana来说可能难以做到. 最好是较为宽泛的限制, 给模型一定的操作空间, 模型可以操作的空间越大, 随机出效果可能会更加好.
  2. 英语描述 >> 中文描述, 使用英文提示词
  3. 尽可能是自然语言描述, 关键词描述不太适用.

LLM辅助提示词生成

考虑到需要连贯的英文自然语言来描述修改的需求, 所以, 使用LLM辅助进行提示词生成没准是个不错的选择.

我考虑使用gemini

复制代码
给我一个英文提示词, 我需要操作nano banana模型进行图片编辑, 实现[你的需求].

- 提示词不要过于冗长

从而, gemini往往会给你多个简短提示词, 选择你需要的prompt

TIP

最后, 我认为人为的核验和校对十分重要, 这个模型还是容易出现单词拼写错误的情况. 针对错误的地方, 配合手动的PS修复图片内容.

相关推荐
AI智能探索者1 天前
揭秘大数据领域特征工程的核心要点
大数据·ai
少林码僧1 天前
2.31 机器学习神器项目实战:如何在真实项目中应用XGBoost等算法
人工智能·python·算法·机器学习·ai·数据挖掘
秉承初心1 天前
ModelEngine 就像搭积木:技术原理是零件,选型案例是说明书
ai·大模型·modelengine
CORNERSTONE3651 天前
AI与MES的融合——从“执行记录”到“智能决策”
人工智能·ai·mes
土星云SaturnCloud1 天前
液冷技术的未来:相变冷却、喷淋冷却等前沿技术探索
服务器·人工智能·ai
寻道模式1 天前
【时间之外】创业踩坑指南(16)-科技手段
科技·ai·rpa
Corleo1 天前
记录一次复杂的 ONNX 到 TensorRT 动态 Shape 转换排错过程
python·ai
m0_603888712 天前
Decentralized Autoregressive Generation
ai·去中心化·区块链·论文速览
效率客栈老秦2 天前
Python Trae提示词开发实战(12):AI实现API自动化批量调用与数据处理让效率提升10倍
人工智能·python·ai·prompt·trae
FIT2CLOUD飞致云2 天前
应用升级为智能体,模板中心上线,MaxKB开源企业级智能体平台v2.5.0版本发布
人工智能·ai·开源·1panel·maxkb