专访李飞飞：从2D到3D，AI将为我们带来哪些改变？

全文2,600 字，阅读约需6分钟

斯坦福大学教授李飞飞接受了 IEEE Spectrum 的独家采访。这位人工智能领域的传奇人物，因创建 ImageNet 数据集和竞赛而闻名于世。通过这一开创性工作，她为深度学习的蓬勃发展奠定了坚实基础。

ImageNet 竞赛要求人工智能系统在 1,000 个类别中准确识别物体和动物。2012 年，神经网络模型 AlexNet 以显著优势胜出，在学界引发轩然大波，由此揭开了神经网络技术迅猛发展的序幕。这一突破得益于互联网海量免费训练数据的支持，以及 GPU 带来的强大计算能力。

在过去的 13 年里，计算机视觉不仅在物体识别方面取得重大突破，更将研究重心转向图像和视频生成等更具挑战性的领域。作为推动这一领域不断向前的中坚力量，李飞飞创立了斯坦福大学以人为中心的人工智能研究院(HAI)。而今年，她又开启了新的征程 - 创立 World Labs，致力于开发能让用户沉浸式探索的 3D 场景，期望赋予人工智能"空间智能"，使其具备生成、推理和交互 3D 世界的能力。

采访文稿

问题一： 您为什么把演讲命名为"登上视觉智能的阶梯"？

李飞飞： 我觉得智能的发展有不同的复杂性和精细化层次，这一点是显而易见的。在演讲中，我想让大家感受到，尤其是在过去十多年深度学习革命的推动下，视觉智能领域取得的进步令人叹为观止。我们的技术能力正在不断突破。此外，我还受到Judea Pearl在《为什么》一书中提出的"因果关系阶梯"的启发。这次演讲还有一个副标题------"从'看'到'做'"。我觉得，人们往往忽视了"看"与互动和行动之间的紧密联系，这不仅适用于动物，也同样适用于人工智能体。而这与语言有所不同。语言更多是一种用来表达想法的交流工具。在我看来，视觉和语言是两种相辅相成、同样深刻的智能形式。

问题二： 您是说我们会本能地对一些视觉信息作出反应吗？李飞飞： 我并不仅仅是指本能。如果我们回顾感知能力的进化史以及动物智能的发展过程，就会发现两者紧密相连。每当我们能够从环境中获取更多的信息时，进化的驱动力就会推动能力和智能不断提升。如果一个生物无法感知环境，它与世界的关系会非常被动；无论是进食还是被捕食，都是一种被动的行为。但当生物能够通过感知从环境中获取信息时，进化压力就会加剧，而这正是推动智能发展的关键力量。

问题三： 您认为，通过让机器感知更多环境，我们是在推动机器智能向更高层次发展吗？

李飞飞： 我不确定"更深层次"是否是最恰当的形容词。我认为我们是在赋予机器更多能力，让它们变得更复杂、更强大。我坚信，攻克空间智能问题是迈向全面智能的基础性和关键性一步。

问题四： 我看过 World Labs 的演示。为什么您会选择研究空间智能并开发这些 3D 世界？

李飞飞： 我认为，空间智能是视觉智能的未来方向。如果我们真心想解决视觉问题，并将其与行动相结合，就必须面对一个显而易见的事实：我们生活的世界是 3D 的，而不是平面的。无论是机器人还是其他设备，这些物理代理都将生活在 3D 世界中。即使是虚拟世界，也正在越来越向 3D 发展。艺术家、游戏开发者、设计师、建筑师和医生等领域的人士，即便是在虚拟环境中工作，他们的很多内容也是基于 3D 的。如果我们稍微停下来思考这一简单却深刻的事实，就会发现解决 3D 智能问题的重要性不容置疑。

问题五： 我很好奇，World Labs 是如何在场景中实现物体恒常性和物理定律的。这似乎是一个令人振奋的进展，因为像 Sora 这样的生成视频工具在这方面仍然存在明显的不足。

李飞飞： 当你承认世界是 3D 的，很多事情就会变得顺理成章。例如，我们在社交媒体上发布的一个视频中展示了篮球被投入场景的效果。因为这是一个 3D 场景，它能表现出真实的物理行为。如果场景仅仅是由 2D 像素生成的，篮球根本无法移动。

问题六： 或者像 Sora 那样，篮球可能会移动一下，但随后消失。您在推动这项技术时，面临的最大挑战是什么？

李飞飞： 到目前为止，没人真正解决过这个问题，这确实非常困难。比如在 $World Labs 的演示视频中$ ，

，时长01:12

我们用一幅梵高的画作生成了一个完整的场景，而且风格完全一致：艺术风格、光线效果，甚至周边环境中可能存在的建筑类型。如果你转身却看到摩天大楼，这就完全不符合逻辑，对吧？更重要的是，这必须是一个 3D 场景，用户需要能够进入并探索其中。所以这远远超出了简单的像素生成。

问题七： 您能透露一些训练数据的情况吗？李飞飞： 数据量非常大。

问题八： 如果人工智能系统能够真正理解 3D 世界，这将为我们带来哪些改变？李飞飞： 这会极大地激发人类的创造力和生产力。我一直希望能用更高效的方式来设计我的房子。同时，医学领域也需要理解 3D 世界，比如人体结构的复杂性。我们常说未来的机器人会帮助人类，而机器人需要在 3D 世界中行动，空间智能是它们大脑中不可或缺的一部分。此外，我们还谈到虚拟世界，这些技术能让人们"身临其境"地参观、学习或者娱乐，尤其是结合 AR（增强现实）技术。我非常希望有一天能戴着智能眼镜，走在国家公园中，实时获取有关树木、小径、云朵的信息。我还希望通过空间智能学习各种新技能。

问题九： 比如哪些技能呢？

李飞飞： 举个简单的例子，如果我的车在高速公路上爆胎了，现在我会打开一个教学视频来学习如何换轮胎。但如果我可以戴上一副眼镜，直接查看车况并获得操作指导，那就太棒了。当然，这只是一个简单的例子。你还可以想象做饭、雕塑等充满趣味性的事情。

问题十： 您认为我们在有生之年能够在这方面取得多大突破？

李飞飞： 我相信这些会在我们有生之年实现，因为技术进步的速度实在太快了。看看过去十年的成就，就可以预见未来的可能性。

我们团队专注企业AI解决方案

业务流程AI优化提升运营效率降低人力成本定制AI应用开发场景化解决方案快速交付落地AI转型咨询规划专业评估诊断精准转型方案

联系负责人：Milo-1101（仅限企业客户）

原视频链接：https://spectrum.ieee.org/fei-fei-li-world-labs

素材来源官方媒体/网络新闻