Nano Banana 相机控制

我们都经历过这种情况：拍摄结束后，进入编辑阶段，你意识到完美的镜头正是你没有拍的那个。你需要鸟瞰视角，或者仅仅是一个轻微的旋转来让构图更出色，但那个瞬间已经过去了。

直到最近，事情就是这样。你只能接受已有的照片。

但我们现在正生活在一个创意专业人士的疯狂时代。新一波AI工具不仅仅是从零开始生成图像；它还关乎重新混合和完善我们已经捕捉到的现实。今天，我想分享一个我一直在测试的工作流程，它感觉像魔法一样：从单张平面图像创建新的相机角度。

我让两个最流行的模型互相较量：Nano Banana Pro 和Qwen Image Edit。

1、测试设置：Weavy节点

在这次测试中，我在Weavy（又名Figma Weave）中使用了基于节点的工作流程。如果你还没有玩过基于节点的编辑，它就像是为你的图像处理管线构建一个可视化配方。我设置了两条并行路径：

**Nano Banana Pro：**Google最新的多模态强大力量。
**Qwen Image Edit：**一个基于Stable Diffusion的流行模型。
我给它们两张具有挑战性的人像------一位穿着Aviator Nation连帽衫的女性和另一位紫色头发的女孩------并要求两个模型旋转主体，给我鸟瞰视角和45度旋转。

提示很简单（在Gemini应用中效果很好）：

"创建 $@$ img1中女性的新角度，就好像她的整个身体旋转了45度一样。使用与原始图像相同的构图。"

如果你没有Weavy、Higgsfield等账号，上面相同的提示在免费的Gemini移动或网页应用中也有效。

但是，有两个陷阱：首先，它会有水印。其次，如果你第一次没有得到正确结果，重新生成会更困难------在这种情况下，最好开始一个新对话，这样它不会被现有图像卡住。

2、挑战者：Qwen Image Edit

让我们从Qwen开始。理论上，它是一个扎实的工具，对于很多业余应用来说，它完全够用。但当你用专业眼光审视时，缺陷就开始显现了。

**颜色/对比度问题：**我立刻注意到Qwen在压暗暗部的同时把对比度调得太高。在穿着连帽衫的女性照片中，颜色发生了显著变化。它看起来很"鲜艳"，但不准确。对于专业工作流程来说，色彩保真度是一切。我不希望我的工具为我调色。

**"Stable Diffusion"外观：**你知道我说的是什么样的外观。有一点塑料感，细节上有点柔和（看看女孩的头发和皮肤，例如）。Qwen实际上是运行在Stable Diffusion之上的LORA（低秩适配），它继承了该架构的所有怪癖。它不太理解光的物理原理，只理解像素的统计概率。

**文字问题：**这是一个致命缺陷。我在提示中包含了文字指令，但Qwen完全搞砸了连帽衫上的字母。这是扩散模型的典型行为：它把字母看作形状，而不是语言（注意上面连帽衫图像中的袖子）。

**提示遵循度：**我不得不和这个工具斗争一下。除非我明确地将旋转参数（如"45度"）写入文本提示，否则它不会尊重滑块参数。不过公平地说，这可能是Weavy实现的一个怪癖，所以对此要持保留态度，但摩擦就是摩擦。

3、冠军：Nano Banana Pro

然后是Nano Banana Pro。说实话？它完全是另一个级别的。

它并不完美------我会透明地说，我不得不"重新生成"几次，因为它并不总是在第一次尝试时遵循提示。姿势和位置在不同生成之间的变化比Qwen更大。但当它成功时，质量是巨大的。

**产品一致性：**这是杀手级功能。Nano Banana Pro是多模态LLM，不仅仅是扩散模型。它有一个世界模型。它理解主体穿着Aviator Nation连帽衫------可能从它与Google Shopping和Google Images的集成中获取信息------并在考虑这种上下文的情况下渲染了服装。

**鸟瞰视角：**由于那种3D世界理解，鸟瞰视角真正令人信服。Qwen很难从上方弄清楚场景的几何结构，但Nano Banana似乎"知道"身体如何占据3D空间。

**文字完美：**因为它是LLM，它能读写。连帽衫上的文字几乎完美渲染。没有胡言乱语，没有外星象形文字。

**相似度和颜色：**面部看起来像原始照片中的人。颜色忠实于源材料。感觉就像在处理原始文件，而不是在上面套用滤镜。

4、在Nano Banana Pro中控制相机角度

这是Nano Banana Pro以一种真正让我惊讶的方式展示其多模态能力的地方。我决定测试是否可以用图表而不是文字来控制相机角度。

首先，我尝试了一个2D俯视图，展示了一个相对于一辆旧款Acura Legend侧面照的相机角度......完美成功。但事情变得更好了：我上传了一个粗略的3D图表，显示了一个在3D空间中指向立方体的相机，令我惊讶的是，它也完美成功了。

现在，完全坦白：我的图表并不完美。但这实际上是最好的部分。 **Nano Banana Pro不需要完美。**它理解了意图，猜测了数学，并且做得相当不错。

同样，它并不完美，但这确实给了你用相对精确的方式在Nano Banana Pro中控制相机角度的能力（你可以用灯光做同样的事情）。

5、结束语

如果你只是随便玩玩，Qwen速度很快，能创建高对比度、鲜艳的图像。但对于需要可靠、高保真结果的创意专业人士来说？我很难推荐Qwen。

仅颜色偏移就是一个我们不需要的麻烦，无法处理文字限制了它在商业工作中的实用性。

Nano Banana Pro可能需要在重新生成上多一点耐心，但输出质量的差异是不可否认的。它尊重你主体的身份，理解你场景中的文字，并以扩散模型尚未达到的复杂程度渲染光线和几何结构。

对我来说（以及我的工作流程），Nano Banana Pro是轻松的选择------特别是Higgsfield的"Angles"实现。

原文链接：Nano Banana 相机控制 - 汇智网