Nano Banana 相机控制

我们都经历过这种情况:拍摄结束后,进入编辑阶段,你意识到完美的镜头正是你没有拍的那个。你需要鸟瞰视角,或者仅仅是一个轻微的旋转来让构图更出色,但那个瞬间已经过去了。

直到最近,事情就是这样。你只能接受已有的照片。

但我们现在正生活在一个创意专业人士的疯狂时代。新一波AI工具不仅仅是从零开始生成图像;它还关乎重新混合和完善我们已经捕捉到的现实。今天,我想分享一个我一直在测试的工作流程,它感觉像魔法一样:从单张平面图像创建新的相机角度。

我让两个最流行的模型互相较量:Nano Banana ProQwen Image Edit

1、测试设置:Weavy节点

在这次测试中,我在Weavy(又名Figma Weave)中使用了基于节点的工作流程。如果你还没有玩过基于节点的编辑,它就像是为你的图像处理管线构建一个可视化配方。我设置了两条并行路径:

  1. **Nano Banana Pro:**Google最新的多模态强大力量。
  2. **Qwen Image Edit:**一个基于Stable Diffusion的流行模型。
    我给它们两张具有挑战性的人像------一位穿着Aviator Nation连帽衫的女性和另一位紫色头发的女孩------并要求两个模型旋转主体,给我鸟瞰视角和45度旋转。

提示很简单(在Gemini应用中效果很好):

"创建[@]img1中女性的新角度,就好像她的整个身体旋转了45度一样。使用与原始图像相同的构图。"

如果你没有Weavy、Higgsfield等账号,上面相同的提示在免费的Gemini移动或网页应用中也有效。

但是,有两个陷阱:首先,它会有水印。其次,如果你第一次没有得到正确结果,重新生成会更困难------在这种情况下,最好开始一个新对话,这样它不会被现有图像卡住。

2、挑战者:Qwen Image Edit

让我们从Qwen开始。理论上,它是一个扎实的工具,对于很多业余应用来说,它完全够用。但当你用专业眼光审视时,缺陷就开始显现了。

**颜色/对比度问题:**我立刻注意到Qwen在压暗暗部的同时把对比度调得太高。在穿着连帽衫的女性照片中,颜色发生了显著变化。它看起来很"鲜艳",但不准确。对于专业工作流程来说,色彩保真度是一切。我不希望我的工具为我调色。

**"Stable Diffusion"外观:**你知道我说的是什么样的外观。有一点塑料感,细节上有点柔和(看看女孩的头发和皮肤,例如)。Qwen实际上是运行在Stable Diffusion之上的LORA(低秩适配),它继承了该架构的所有怪癖。它不太理解光的物理原理,只理解像素的统计概率。

**文字问题:**这是一个致命缺陷。我在提示中包含了文字指令,但Qwen完全搞砸了连帽衫上的字母。这是扩散模型的典型行为:它把字母看作形状,而不是语言(注意上面连帽衫图像中的袖子)。

**提示遵循度:**我不得不和这个工具斗争一下。除非我明确地将旋转参数(如"45度")写入文本提示,否则它不会尊重滑块参数。不过公平地说,这可能是Weavy实现的一个怪癖,所以对此要持保留态度,但摩擦就是摩擦。

3、冠军:Nano Banana Pro

然后是Nano Banana Pro。说实话?它完全是另一个级别的。

它并不完美------我会透明地说,我不得不"重新生成"几次,因为它并不总是在第一次尝试时遵循提示。姿势和位置在不同生成之间的变化比Qwen更大。但当它成功时,质量是巨大的。

**产品一致性:**这是杀手级功能。Nano Banana Pro是多模态LLM,不仅仅是扩散模型。它有一个世界模型。它理解主体穿着Aviator Nation连帽衫------可能从它与Google Shopping和Google Images的集成中获取信息------并在考虑这种上下文的情况下渲染了服装。

**鸟瞰视角:**由于那种3D世界理解,鸟瞰视角真正令人信服。Qwen很难从上方弄清楚场景的几何结构,但Nano Banana似乎"知道"身体如何占据3D空间。

**文字完美:**因为它是LLM,它能读写。连帽衫上的文字几乎完美渲染。没有胡言乱语,没有外星象形文字。

**相似度和颜色:**面部看起来像原始照片中的人。颜色忠实于源材料。感觉就像在处理原始文件,而不是在上面套用滤镜。

4、在Nano Banana Pro中控制相机角度

这是Nano Banana Pro以一种真正让我惊讶的方式展示其多模态能力的地方。我决定测试是否可以用图表而不是文字来控制相机角度。

首先,我尝试了一个2D俯视图,展示了一个相对于一辆旧款Acura Legend侧面照的相机角度......完美成功。但事情变得更好了:我上传了一个粗略的3D图表,显示了一个在3D空间中指向立方体的相机,令我惊讶的是,它也完美成功了。

现在,完全坦白:我的图表并不完美。但这实际上是最好的部分。 **Nano Banana Pro不需要完美。**它理解了意图,猜测了数学,并且做得相当不错。

同样,它并不完美,但这确实给了你用相对精确的方式在Nano Banana Pro中控制相机角度的能力(你可以用灯光做同样的事情)。

5、结束语

如果你只是随便玩玩,Qwen速度很快,能创建高对比度、鲜艳的图像。但对于需要可靠、高保真结果的创意专业人士来说?我很难推荐Qwen。

仅颜色偏移就是一个我们不需要的麻烦,无法处理文字限制了它在商业工作中的实用性。

Nano Banana Pro可能需要在重新生成上多一点耐心,但输出质量的差异是不可否认的。它尊重你主体的身份,理解你场景中的文字,并以扩散模型尚未达到的复杂程度渲染光线和几何结构。

对我来说(以及我的工作流程),Nano Banana Pro是轻松的选择------特别是Higgsfield的"Angles"实现。


原文链接:Nano Banana 相机控制 - 汇智网

相关推荐
高木木的博客8 小时前
数字架构智能化测试平台(1)--总纲
人工智能·python·nginx·架构
wanghowie8 小时前
11. AI 客服系统架构设计:不是调 API,而是系统工程
人工智能·系统架构
袋鼠云数栈UED团队8 小时前
基于 OpenSpec 实现规范驱动开发
前端·人工智能
Raink老师8 小时前
【AI面试临阵磨枪】什么是 Tokenization?子词分词(Subword)的优缺点?
人工智能·ai 面试
迷你可可小生9 小时前
面经(三)
人工智能·rnn·lstm
云烟成雨TD9 小时前
Spring AI Alibaba 1.x 系列【28】Nacos Skill 管理中心功能说明
java·人工智能·spring
AI医影跨模态组学9 小时前
Cancer Letters(IF=10.1)中科院自动化研究所田捷等团队:整合纵向MRI与活检全切片图像用于乳腺癌新辅助治疗反应的早期预测及个体化管理
人工智能·深度学习·论文·医学·医学影像
oioihoii9 小时前
Graphify 简明指南
人工智能
数字供应链安全产品选型9 小时前
AI全生命周期安全:从开发到下线,悬镜安全灵境AIDR如何覆盖智能体每一个环节?
人工智能
2501_933329559 小时前
企业舆情处置实战:Infoseek数字公关AI中台技术架构与功能解析
大数据·人工智能·架构·数据库开发