ICCV 2025 最佳论文出炉:CMU 团队用「AI 积木大师」BrickGPT 摘得桂冠!

今天凌晨,在夏威夷举行的国际计算机视觉大会ICCV 2025揭晓了本届会议的最佳论文等奖项。全球计算机视觉三大顶会之一的ICCV今年共收到11239份有效投稿,最终录用2699篇论文,录用率为24%。

来自卡耐基梅隆大学的团队凭借论文 《Generating Physically Stable and Buildable Brick Structures from Text》 斩获最佳论文奖,而以色列理工学院的研究则获得最佳学生论文奖。

最佳论文:从文本到可建造的积木结构

当今生成式AI在3D内容创作领域蓬勃发展,但大多数生成模型只关注外观,却忽略了物理世界的约束。这些数字模型可能看起来很精美,但往往结构不稳定,或组件之间存在冲突,无法在现实世界中实际组装。

朱俊彦团队的研究漂亮地解决了这一问题。他们提出了BrickGPT------首个能够根据文本提示生成物理稳定、可实际搭建的积木结构的AI系统。

BrickGPT要解决的,就是这个长期被忽略的"现实可行性"问题。它的目标是:生成既好看、又能拼、还能稳的积木结构。

论文第一作者Ava Pun在其个人主页写道: "我希望回答一个问题:如何让AI不仅在我们的计算机上有用,而且在物理世界中也有用?" BrickGPT正是这一理念的完美体现。

作者团队

  • 朱俊彦(Jun-Yan Zhu): CMU 助理教授,清华校友,前 Adobe 研究科学家。
  • 合作者: Ava Pun、Kangle Deng、Ruixuan Liu、Deva Ramanan、Changliu Liu。
  • 项目主页: avalovelace1.github.io/BrickGPT/
  • 代码开源(1.3K⭐): GitHub - AvaLovelace1/BrickGPT

方法创新:给LLM加入"物理直觉"

BrickGPT 的核心是基于 LLaMA-3.2-Instruct-1B 微调的大语言模型。

研究者巧妙地把"搭积木"的任务转化为"预测下一块砖"的语言生成问题。

整个流程分三步:

  • 积木文本化:

每块积木被编码为类似 "4x2 (1,7,17)" 的 token,整个结构就是一串"积木语言"。

  • 指令微调:

模型学习"描述 → 积木序列"的对应关系,就像"语言版蓝图"。

  • 物理约束生成:
  • 拒绝采样(Rejection Sampling):每放一块砖都检查是否合法。
  • 物理感知回滚(Physics-aware Rollback):若整体结构不稳定,自动退回至上一个稳定状态重新生成。

这一机制相当于在AI的生成过程中,嵌入了"工程师思维"。

StableText2Brick:给AI准备的"积木教材"

为了让AI学会搭积木,研究团队构建了一个超大规模数据集------StableText2Brick。

  • 数据量: 超过 47,000 个积木结构
  • 覆盖对象: 28,000+ 种独特3D物体
  • 每个样本都附带: 稳定结构 + 文本描述 + 多角度视图

构建过程包含四步:

  1. 从3D网格到积木(Mesh-to-Brick): 把连续网格模型体素化为离散积木。
  2. 结构增强: 随机扰动积木排列,生成多样结构。
  3. 物理模拟: 剔除会倒塌的不稳定设计。
  4. 文本生成: 用 GPT-4o 为每个结构生成自然语言描述。

这让模型拥有了"图文并茂"的搭建教材,具备从描述到结构的学习能力。

实验结果:近乎完美的稳定性

实验结果表明,BrickGPT在关键指标上表现卓越:

  • 有效性(无违规积木或碰撞): 100%
  • 稳定性(物理结构稳定): 98.8%

远超基线模型,同时保持较高的文本相似度。

从对比结果中可以直观看出:

其他方法生成的结构常有碰撞(黑色区域)或悬浮问题,而BrickGPT生成的积木既稳定又合理。

它还能根据描述自动生成带颜色与纹理的版本,兼顾创意与实用。

更重要的是------这些结构不仅能被人类拼搭,甚至还能让机械臂自动组装!

其他重要奖项

  • 最佳学生论文

以色列理工学院的 《FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models》 提出了一种无需反演的文本驱动图像编辑方法。

传统方法需要将图像反演到噪声空间,而FlowEdit通过构建常微分方程,直接在源图像分布与目标图像分布间建立映射路径,实现了更高效的编辑。

论文地址:arxiv.org/abs/2412.08...

项目主页:matankleiner.github.io/flowedit/

Code&Data:github.com/fallenshock...

  • 最佳论文荣誉提名

卡耐基梅隆大学的《Spatially-Varying Autofocus》打破了传统镜头只能单一平面清晰成像的限制,设计了一种能够任意调整景深的计算镜头,可同时使整个场景清晰成像。

  • 赫尔姆霍兹奖(测试方法奖)

两篇获奖论文均来自微软研究院:

《Fast R-CNN》:提出快速区域卷积网络,显著提升目标检测速度与精度

论文地址:arxiv.org/abs/1504.08...

《Delving Deep into Rectifiers》:引入PReLU激活函数和He初始化方法,首次在ImageNet上超越人类水平分类性能

论文地址:arxiv.org/abs/1502.01...

  • 埃弗林厄姆奖(严谨评估奖)

SMPL人体模型团队:开发参数化三维人体模型,对数字人领域产生里程碑式影响

VQA数据集团队:创建视觉问答基准数据集,推动多模态AI发展

项目主页:smpl.is.tue.mpg.de/

  • 个人成就奖


杰出研究员奖:David Forsyth(UIUC)、Michal Irani(魏茨曼科学研究院)

阿兹列尔·罗森菲尔德终身成就奖:Rama Chellappa(约翰霍普金斯大学)

中国力量闪耀ICCV

本届ICCV数据显示,中国作者贡献了50%的投稿论文,再次彰显了中国在计算机视觉领域的强大实力。

从最佳论文的华人主导团队,到占半壁江山的投稿作者,中国学者正在全球计算机视觉舞台上扮演着越来越重要的角色。

总结

ICCV 2025 将最佳论文颁给 BrickGPT,不仅因为它"能搭出稳固积木",

更因为它象征着引领AIGC社区向着遵循物理规律、真实世界可用的方向迈进。

未来的AI,不只是内容创作者,更是数字工程师。

相关推荐
喜欢吃燃面5 小时前
算法中的链表结构
开发语言·c++·学习·算法
Juan_20125 小时前
P1041题解
c++·算法·题解·搜索
晨非辰6 小时前
【数据结构入坑指南】--《层序分明:堆的实现、排序与TOP-K问题一站式攻克(源码实战)》
c语言·开发语言·数据结构·算法·面试
hansang_IR6 小时前
【题解】P2217 [HAOI2007] 分割矩阵 [记忆化搜索]
c++·数学·算法·记忆化搜索·深搜
Coovally AI模型快速验证7 小时前
IDEA研究院发布Rex-Omni:3B参数MLLM重塑目标检测,零样本性能超越DINO
人工智能·深度学习·yolo·目标检测·计算机视觉·目标跟踪
Voyager_48 小时前
算法学习记录03——二叉树学习笔记:从两道题看透后序位置的关键作用
笔记·学习·算法
shuououo10 小时前
YOLOv4 核心内容笔记
人工智能·计算机视觉·目标跟踪
我搞slam13 小时前
快乐数--leetcode
算法·leetcode·哈希算法
WWZZ202513 小时前
快速上手大模型:机器学习3(多元线性回归及梯度、向量化、正规方程)
人工智能·算法·机器学习·机器人·slam·具身感知