NVIDIA 研究团队在 SIGGRAPH Asia Real-Time Live 上展示采用 Gen AI 的交互式纹理绘画

这篇文章最初发表在 NVIDIA 技术博客上。

NVIDIA 研究人员在 SIGGRAPH 亚洲实时直播 活动中,展示了集成到交互式纹理绘制工作流程中的生成式 AI 技术。这项技术使艺术家能够直接在 3D 物体表面上绘制复杂、独一无二的纹理。

此原型展示了 AI 如何作为艺术家手中的画笔,而不仅仅是在高级用户的指导下生成完整的结果。它支持交互式地添加具有无限纹理变化和逼真过渡的局部细节。如果您错过了直播节目,请查看预录制版本的演示。

这是 NVIDIA 一系列研究项目中的一项,旨在通过实时 AI 推理和直接控制来开发新的迭代工作流,利用 AI 的强大功能支持创造力。SIGGRAPH 大会上的 AI 通用材质在 2023 年 8 月赢得了 Real-Time Live 节目奖项。

AI 纹理绘画使 AI 在交互式循环中更进一步。此项目使您能够通过交互式绘画直接控制纹理的位置、比例和方向,而不是在方形平铺上生成和迭代基于物理性质的渲染 (PBR) 材质,然后将其应用于 UV 映射的 3D 对象。每个 3D 绘画笔触都由 AI 实时生成。

定制 AI 以实现创意

在设计创意工具的各个方面中,对结果的直接迭代控制是最重要的方面之一。将现代基础图像 AI 模型集成到交互式工作流(例如绘画)中的挑战之一是,AI 非常擅长想象可能不一定是艺术家意图的东西。在某些情况下,这可能会导致需要仔细的工程提示和似乎难以控制的不可预测的结果。

图 1.使用带有岩石纹理示例的 AI 画笔添加具有不同画笔大小的卷积路径

在此界面中,研究人员选择不使用基于文本的界面来放置或识别纹理。根据"一张图像胜于千言万语"这句语,AI 笔刷以目标纹理的示例图像为条件。

灵感图像是 3D 设计中的常见概念。这些图像通常仅用作参考,必须经过大量处理,才能集成到 3D 场景中。

SIGGRAPH 大会上的 AI 材质演示展示了如何将不完美的灵感图像转换为可平铺的 PBR 材质,从而更轻松地将来自现实世界的灵感引入 3D 工作流。在这个新的演示中,任何现实世界纹理的灵感图像都可以转换为 AI 画笔,供艺术家使用以 3D 方式绘画。您不仅可以控制笔触形状,还可以控制画笔大小和纹理方向。

原型中的 AI 旨在确保笔触包含参考变体,且不会偏离太多标识。骨干基础 AI 模型还可在不同纹理的区域之间提供逼真的过渡,而无需任何此类过渡引用。例如,AI 可以使用 AI 纹理笔刷在原始草纹理和以交互方式绘制的岩石路径之间填充逼真的过渡。

图 2.使用文本查询生成的粉色花进行绘画

图 3.使用文本查询生成的古代符文纹理进行绘画

如果没有可以为画笔添加种子的鼓舞人心的图像,该怎么办?

文本转图像的 AI 可用于生成多个版本。您可以选择要使用的确切笔刷,在交互式循环中直接由艺术家控制,从而提供各种创意可能性。

由 NVIDIA 技术提供支持

为实现此原型, NVIDIA 采用了多种技术。速度是交互式界面和实时实时程序的要求之一。借助 NVIDIA GPU 中 Tensor Core 的加速推理,此原型可实现 0.23-0.15 秒的每个笔刷推理速度。

该原型的开发初衷是作为 NVIDIA Omniverse 的扩展。Omniverse 是一个 模块化开发平台,提供了用于构建应用和服务的 API 和微服务。它依托于 OpenUSDNVIDIA RTX 技术,使开发者能够构建包含 AI 的复杂 3D 工具。

在这种情况下,集成的 NVIDIA Warp 库 提供了高效的动态纹理支持,使 AI 能够为渲染对象提供快速更新。

在幕后,该方法依赖于NVIDIA Kaolin 库,它用于 3D 深度学习,能够直接在 GPU 上高效实现离屏光栅化和纹理反向投影。

致谢

此演示是 Anita Hu、Nishkrit Desai、Hassan Abu Alhaija、Alexander Zook、Seung Wook Kim、Ashley Goldstein、Carsten Klove、Daniela Hasenbring、Rajeev Rao 和 Masha Shugrina 跨团队合作的成果。Anita Hu 和 Alexander Zook 做了现场演示。

阅读原文

相关推荐
kyle~9 小时前
推理部署---CUDA 执行模型(SM、Block、Warp 与 SIMT)
人工智能·nvidia·cuda
basketball61611 小时前
AI Infra 硬件体系与编程模型:15. CUDA编程基础:混合精度计算
人工智能·nvidia·cuda
小白狮ww12 小时前
3B 参数,毫秒级响应:LocateAnything 如何重新定义开放世界目标检测
人工智能·目标检测·计算机视觉·视觉检测·大语言模型·nvidia·locateanything
kyle~2 天前
ROS 2 与 Isaac Sim 联合仿真(一)体系架构、环境选型与基础通信闭环
c++·机器人·nvidia·仿真·ros2
kyle~2 天前
ROS 2 与 Isaac Sim 联合仿真(三):工程化部署、性能优化、多机器人与 Sim-to-Real
机器人·nvidia·仿真·ros2
CV-deeplearning2 天前
NVIDIA CV-CUDA:GPU 全流程加速计算机视觉,pip 一键安装替代 OpenCV,微软/腾讯/百度/字节全在用,云级图像处理吞吐量飙升 10 倍
opencv·计算机视觉·pip·nvidia·cuda·gpu加速·cv-cuda
OpenCSG7 天前
Cosmos3:NVIDIA 把世界模型做成了“理解、生成、模拟、行动”的统一入口
人工智能·大模型·nvidia·opencsg
OpenBayes贝式计算9 天前
端侧同尺寸 SOTA:OpenBMB 发布 1B 参数模型 MiniCPM5-1B;集成多级平行语料与多语言词典:SMOL 翻译数据集开源
计算机视觉·google·nvidia
OpenBayes贝式计算9 天前
教程上新丨英伟达开源 LocateAnything,3B 模型可实现图像 + 视频的目标指向 / 开放词汇目标检测/指代表达定位 / OCR 文本定位等功能
计算机视觉·agent·nvidia
视***间10 天前
算力筑基,智领人形机器人新时代 —— 英伟达 × 宇树科技携手推进具身智能,视程空间基于 NVIDIA 全栈算力产品助力机器人产业落地
人工智能·机器人·nvidia·机器狗·gpt-oss·视程空间·宇树机器人