Nano Banana 相机控制

我们都经历过这种情况:拍摄结束后,进入编辑阶段,你意识到完美的镜头正是你没有拍的那个。你需要鸟瞰视角,或者仅仅是一个轻微的旋转来让构图更出色,但那个瞬间已经过去了。

直到最近,事情就是这样。你只能接受已有的照片。

但我们现在正生活在一个创意专业人士的疯狂时代。新一波AI工具不仅仅是从零开始生成图像;它还关乎重新混合和完善我们已经捕捉到的现实。今天,我想分享一个我一直在测试的工作流程,它感觉像魔法一样:从单张平面图像创建新的相机角度。

我让两个最流行的模型互相较量:Nano Banana ProQwen Image Edit

1、测试设置:Weavy节点

在这次测试中,我在Weavy(又名Figma Weave)中使用了基于节点的工作流程。如果你还没有玩过基于节点的编辑,它就像是为你的图像处理管线构建一个可视化配方。我设置了两条并行路径:

  1. **Nano Banana Pro:**Google最新的多模态强大力量。
  2. **Qwen Image Edit:**一个基于Stable Diffusion的流行模型。
    我给它们两张具有挑战性的人像------一位穿着Aviator Nation连帽衫的女性和另一位紫色头发的女孩------并要求两个模型旋转主体,给我鸟瞰视角和45度旋转。

提示很简单(在Gemini应用中效果很好):

"创建[@]img1中女性的新角度,就好像她的整个身体旋转了45度一样。使用与原始图像相同的构图。"

如果你没有Weavy、Higgsfield等账号,上面相同的提示在免费的Gemini移动或网页应用中也有效。

但是,有两个陷阱:首先,它会有水印。其次,如果你第一次没有得到正确结果,重新生成会更困难------在这种情况下,最好开始一个新对话,这样它不会被现有图像卡住。

2、挑战者:Qwen Image Edit

让我们从Qwen开始。理论上,它是一个扎实的工具,对于很多业余应用来说,它完全够用。但当你用专业眼光审视时,缺陷就开始显现了。

**颜色/对比度问题:**我立刻注意到Qwen在压暗暗部的同时把对比度调得太高。在穿着连帽衫的女性照片中,颜色发生了显著变化。它看起来很"鲜艳",但不准确。对于专业工作流程来说,色彩保真度是一切。我不希望我的工具为我调色。

**"Stable Diffusion"外观:**你知道我说的是什么样的外观。有一点塑料感,细节上有点柔和(看看女孩的头发和皮肤,例如)。Qwen实际上是运行在Stable Diffusion之上的LORA(低秩适配),它继承了该架构的所有怪癖。它不太理解光的物理原理,只理解像素的统计概率。

**文字问题:**这是一个致命缺陷。我在提示中包含了文字指令,但Qwen完全搞砸了连帽衫上的字母。这是扩散模型的典型行为:它把字母看作形状,而不是语言(注意上面连帽衫图像中的袖子)。

**提示遵循度:**我不得不和这个工具斗争一下。除非我明确地将旋转参数(如"45度")写入文本提示,否则它不会尊重滑块参数。不过公平地说,这可能是Weavy实现的一个怪癖,所以对此要持保留态度,但摩擦就是摩擦。

3、冠军:Nano Banana Pro

然后是Nano Banana Pro。说实话?它完全是另一个级别的。

它并不完美------我会透明地说,我不得不"重新生成"几次,因为它并不总是在第一次尝试时遵循提示。姿势和位置在不同生成之间的变化比Qwen更大。但当它成功时,质量是巨大的。

**产品一致性:**这是杀手级功能。Nano Banana Pro是多模态LLM,不仅仅是扩散模型。它有一个世界模型。它理解主体穿着Aviator Nation连帽衫------可能从它与Google Shopping和Google Images的集成中获取信息------并在考虑这种上下文的情况下渲染了服装。

**鸟瞰视角:**由于那种3D世界理解,鸟瞰视角真正令人信服。Qwen很难从上方弄清楚场景的几何结构,但Nano Banana似乎"知道"身体如何占据3D空间。

**文字完美:**因为它是LLM,它能读写。连帽衫上的文字几乎完美渲染。没有胡言乱语,没有外星象形文字。

**相似度和颜色:**面部看起来像原始照片中的人。颜色忠实于源材料。感觉就像在处理原始文件,而不是在上面套用滤镜。

4、在Nano Banana Pro中控制相机角度

这是Nano Banana Pro以一种真正让我惊讶的方式展示其多模态能力的地方。我决定测试是否可以用图表而不是文字来控制相机角度。

首先,我尝试了一个2D俯视图,展示了一个相对于一辆旧款Acura Legend侧面照的相机角度......完美成功。但事情变得更好了:我上传了一个粗略的3D图表,显示了一个在3D空间中指向立方体的相机,令我惊讶的是,它也完美成功了。

现在,完全坦白:我的图表并不完美。但这实际上是最好的部分。 **Nano Banana Pro不需要完美。**它理解了意图,猜测了数学,并且做得相当不错。

同样,它并不完美,但这确实给了你用相对精确的方式在Nano Banana Pro中控制相机角度的能力(你可以用灯光做同样的事情)。

5、结束语

如果你只是随便玩玩,Qwen速度很快,能创建高对比度、鲜艳的图像。但对于需要可靠、高保真结果的创意专业人士来说?我很难推荐Qwen。

仅颜色偏移就是一个我们不需要的麻烦,无法处理文字限制了它在商业工作中的实用性。

Nano Banana Pro可能需要在重新生成上多一点耐心,但输出质量的差异是不可否认的。它尊重你主体的身份,理解你场景中的文字,并以扩散模型尚未达到的复杂程度渲染光线和几何结构。

对我来说(以及我的工作流程),Nano Banana Pro是轻松的选择------特别是Higgsfield的"Angles"实现。


原文链接:Nano Banana 相机控制 - 汇智网

相关推荐
小超同学你好2 小时前
Transformer 17. Qwen 1 / Qwen 1.5 架构介绍以及与 Transformer、LLaMA 的对比
人工智能·语言模型·架构·transformer
东离与糖宝2 小时前
aiX-apply-4B小模型Java部署指南:消费级显卡跑AI编程,成本直降95%
java·人工智能
薛不痒2 小时前
Llamafactory的使用(1)
人工智能·python·llama
AI人工智能+2 小时前
基于OCR与大模型融合的文档抽取技术,可自动化完成证照信息抽取
人工智能·计算机视觉·语言模型·自然语言处理·ocr
沫儿笙2 小时前
KUKA库卡焊接机器人智能节气仪
大数据·人工智能·机器人
zhangshuang-peta2 小时前
MCP 的落地路径:从 PoC 到规模化部署的 4 个阶段
人工智能·ai agent·mcp·peta
nap-joker2 小时前
TIP:表格图像预训练模型用于不完整数据的多模态分类
人工智能·分类·数据挖掘·表格-影像融合·不完整数据
这辈子谁会真的心疼你2 小时前
怎样让所有mp3声音大小一样?统一声音的两个方法
人工智能·ffmpeg·音视频
azurehan012 小时前
计算机视觉学习笔记专有名词学习~1
笔记·学习·计算机视觉