专访李飞飞:从2D到3D,AI将为我们带来哪些改变?

全文2,600 字,阅读约需6分钟

斯坦福大学教授李飞飞接受了 IEEE Spectrum 的独家采访。这位人工智能领域的传奇人物,因创建 ImageNet 数据集和竞赛而闻名于世。通过这一开创性工作,她为深度学习的蓬勃发展奠定了坚实基础。

ImageNet 竞赛要求人工智能系统在 1,000 个类别中准确识别物体和动物。2012 年,神经网络模型 AlexNet 以显著优势胜出,在学界引发轩然大波,由此揭开了神经网络技术迅猛发展的序幕。这一突破得益于互联网海量免费训练数据的支持,以及 GPU 带来的强大计算能力。

在过去的 13 年里,计算机视觉不仅在物体识别方面取得重大突破,更将研究重心转向图像和视频生成等更具挑战性的领域。作为推动这一领域不断向前的中坚力量,李飞飞创立了斯坦福大学以人为中心的人工智能研究院(HAI)。而今年,她又开启了新的征程 - 创立 World Labs,致力于开发能让用户沉浸式探索的 3D 场景,期望赋予人工智能"空间智能",使其具备生成、推理和交互 3D 世界的能力。

采访文稿

问题一: 您为什么把演讲命名为"登上视觉智能的阶梯"?

李飞飞: 我觉得智能的发展有不同的复杂性和精细化层次,这一点是显而易见的。在演讲中,我想让大家感受到,尤其是在过去十多年深度学习革命的推动下,视觉智能领域取得的进步令人叹为观止。我们的技术能力正在不断突破。此外,我还受到Judea Pearl在《为什么》一书中提出的"因果关系阶梯"的启发。这次演讲还有一个副标题------"从'看'到'做'"。我觉得,人们往往忽视了"看"与互动和行动之间的紧密联系,这不仅适用于动物,也同样适用于人工智能体。而这与语言有所不同。语言更多是一种用来表达想法的交流工具。在我看来,视觉和语言是两种相辅相成、同样深刻的智能形式。

问题二: 您是说我们会本能地对一些视觉信息作出反应吗?李飞飞: 我并不仅仅是指本能。如果我们回顾感知能力的进化史以及动物智能的发展过程,就会发现两者紧密相连。每当我们能够从环境中获取更多的信息时,进化的驱动力就会推动能力和智能不断提升。如果一个生物无法感知环境,它与世界的关系会非常被动;无论是进食还是被捕食,都是一种被动的行为。但当生物能够通过感知从环境中获取信息时,进化压力就会加剧,而这正是推动智能发展的关键力量。

问题三: 您认为,通过让机器感知更多环境,我们是在推动机器智能向更高层次发展吗?

李飞飞: 我不确定"更深层次"是否是最恰当的形容词。我认为我们是在赋予机器更多能力,让它们变得更复杂、更强大。我坚信,攻克空间智能问题是迈向全面智能的基础性和关键性一步。

问题四: 我看过 World Labs 的演示。为什么您会选择研究空间智能并开发这些 3D 世界?

李飞飞: 我认为,空间智能是视觉智能的未来方向。如果我们真心想解决视觉问题,并将其与行动相结合,就必须面对一个显而易见的事实:我们生活的世界是 3D 的,而不是平面的。无论是机器人还是其他设备,这些物理代理都将生活在 3D 世界中。即使是虚拟世界,也正在越来越向 3D 发展。艺术家、游戏开发者、设计师、建筑师和医生等领域的人士,即便是在虚拟环境中工作,他们的很多内容也是基于 3D 的。如果我们稍微停下来思考这一简单却深刻的事实,就会发现解决 3D 智能问题的重要性不容置疑。

问题五: 我很好奇,World Labs 是如何在场景中实现物体恒常性和物理定律的。这似乎是一个令人振奋的进展,因为像 Sora 这样的生成视频工具在这方面仍然存在明显的不足。

李飞飞: 当你承认世界是 3D 的,很多事情就会变得顺理成章。例如,我们在社交媒体上发布的一个视频中展示了篮球被投入场景的效果。因为这是一个 3D 场景,它能表现出真实的物理行为。如果场景仅仅是由 2D 像素生成的,篮球根本无法移动。

问题六: 或者像 Sora 那样,篮球可能会移动一下,但随后消失。您在推动这项技术时,面临的最大挑战是什么?

李飞飞: 到目前为止,没人真正解决过这个问题,这确实非常困难。比如在 [World Labs 的演示视频中],

,时长01:12

我们用一幅梵高的画作生成了一个完整的场景,而且风格完全一致:艺术风格、光线效果,甚至周边环境中可能存在的建筑类型。如果你转身却看到摩天大楼,这就完全不符合逻辑,对吧?更重要的是,这必须是一个 3D 场景,用户需要能够进入并探索其中。所以这远远超出了简单的像素生成。

问题七: 您能透露一些训练数据的情况吗?李飞飞: 数据量非常大。

问题八: 如果人工智能系统能够真正理解 3D 世界,这将为我们带来哪些改变?李飞飞: 这会极大地激发人类的创造力和生产力。我一直希望能用更高效的方式来设计我的房子。同时,医学领域也需要理解 3D 世界,比如人体结构的复杂性。我们常说未来的机器人会帮助人类,而机器人需要在 3D 世界中行动,空间智能是它们大脑中不可或缺的一部分。此外,我们还谈到虚拟世界,这些技术能让人们"身临其境"地参观、学习或者娱乐,尤其是结合 AR(增强现实)技术。我非常希望有一天能戴着智能眼镜,走在国家公园中,实时获取有关树木、小径、云朵的信息。我还希望通过空间智能学习各种新技能。

问题九: 比如哪些技能呢?

李飞飞: 举个简单的例子,如果我的车在高速公路上爆胎了,现在我会打开一个教学视频来学习如何换轮胎。但如果我可以戴上一副眼镜,直接查看车况并获得操作指导,那就太棒了。当然,这只是一个简单的例子。你还可以想象做饭、雕塑等充满趣味性的事情。

问题十: 您认为我们在有生之年能够在这方面取得多大突破?

李飞飞: 我相信这些会在我们有生之年实现,因为技术进步的速度实在太快了。看看过去十年的成就,就可以预见未来的可能性。

我们团队专注企业AI解决方案

业务流程AI优化提升运营效率降低人力成本定制AI应用开发场景化解决方案快速交付落地AI转型咨询规划专业评估诊断精准转型方案

联系负责人:Milo-1101(仅限企业客户)

原视频链接:https://spectrum.ieee.org/fei-fei-li-world-labs

素材来源官方媒体/网络新闻

相关推荐
风象南9 分钟前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia1 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮1 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬2 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia2 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区2 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两5 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪5 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat232555 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源