本文整理自OpenAI首席科学家Ilya Sutskever的一次的访谈。Ilya与我们深入探讨了当前通用语言模型技术如何向更高智能迈进,以及Token预测这一核心方法如何成为AGI的基石。
Token预测:连接语言、思维和世界
Token预测看似简单的一个统计学技巧,但Ilya强调,其中蕴含了巨大的潜力:
"预测下一个语言符号(Token)的质量,其实反映了你对语言背后隐藏的语义和知识的理解程度。这不仅是统计,更是对世界本质的压缩和表达。"
要预测语言,模型需要建立符号与思维、思维与世界之间的联系。这也意味着,一个足够强大的语言模型,可以模拟出超越现实的假想情况:
"如果让这样的模型去预测,一个睿智、博学和能力非凡的人会有怎样的行为举止,它很可能可以通过人类数据进行推理和外推。"
换言之,Token预测技术提供了通向更高层次智能的桥梁。
纯预测是否够用?
这听上去令人振奋,但也有专家质疑,单纯的预测性学习无法产生超人类智能。对此,Ilya反问:
"如果基础的神经网络足够强大,你让它预测一个智慧卓绝的人会怎么做,这难道不可能吗?从数据中推测出一个不存在的更聪明人物的行为?"
结合之前的分析,Ilya的逻辑在此显得异常清晰:
- Token预测需要建立符号到世界的联系
- 一个足够强大的语言模型可以模拟假想情况
- 所以,它也可以模拟出比任何人都强的假想超级大脑!
这种跨层级的推理虽然充满不确定,但Ilya坚信 Token预测技术应该能够到达这样的高度。
当然,我们也需要引入其他机制。比如强化学习中的人机交互:
"你的目标是人类老师只做1%的工作,AI则完成其余的99%。每一代AI系统训练出下一代AI。最终人机协作带来渐进式提升,达到 AGI水平。"
可见从纯预测到AGI,我们需要更多增强。但作为基石,Token预测可以发挥不可或缺的作用。
通向AGI的技术进化之路
那么我们还缺少什么?Ilya谈到了几个关键点:
理解能力。我们需要更深入地理解训练过程中发生的事情,而不是简单提出新想法:
"真正重要的是洞悉事物本质、理解根本原因。你需要问 --- 为什么我们这么做,而不是那样做?"
实验迭代。没有捷径可言,需要大量试错:
"你运行了神经网络,得到一些意外的行为,这很难理解。你需要从不同层面推测和验证。"
可靠性。最终我们需要信任模型的输出。这关乎整个系统的成熟度:
"如果模型不够可靠,技术上的成熟度就达不到要求。"
控制能力。同时,我们还需要指导和控制模型的行为:
"如果系统既可靠又可控,就可以解决很多问题。"
可见,Token预测只是通向AGI的第一步。在Ilya看来,理解、试错、可靠性和控制,这些才是关键。
最后,他谦虚而又充满信心地总结道:
"我会继续努力,至今为止这都是有效的。这是必要条件,但还不够,我们仍需在许多层面上下功夫。"
Token预测的深层内涵
当前的语言模型都是基于next token prediction,也就是预测句子的下一个词的任务进行训练的。Ilya认为这看似简单的一个任务背后蕴含了深层的智能:
"要预测下一个词汇做得足够好,这实际上是一个比看起来更加深刻的问题。因为预测下一个词汇做得好意味着你理解了产生那个词汇的基础现实。这并不是统计学,这是你需要去理解那些统计数据背后的世界本质。"
如果模型可以从有限的数据中推断出这些深层规则,那么它就可以模拟出一个更加智能的假想角色。
从数据中推理更高的智能
当被问到单纯的语言预测如何超越人类时,Ilya举了一个例子:
"如果你的基础神经网络足够智能,你可以问它------一个有着极大洞察力、智慧和能力的人会做什么?这样一个人可能并不存在,但是这基础模型可以推测出这样一个人会有怎样的行为。"
尽管真实世界中没有这样完美的角色,但是模型可以从有限的不完美数据中推导出一个更高层次的可能。
多步推理仍需提高
当被问及这些模型在多步推理上仍存在的不足时,Ilya提出这需要通过专项训练来改善:
"我认为专项训练可以让我们走得更远。对基础模型的更多改进也可以让我们走得更远。但是从根本上来说,我也不觉得他们在多步推理上做得很差......当他们被允许大声思考时,他们的表现其实相当不错。"
随着模型能力的提升,多步推理也将得到改善。
预计路线
总的来说,Ilya预计token预测这种方法可以走得很远,甚至有可能一直突破到AGI:
"我认为这种范式将会走得非常、非常远,我不会低估它。这很有可能就是最终通往AGI的形式。"
尽管最终也许需要与其他想法结合,但token预测提供了一个可行的路径。
所以,从当前的语言模型到未来的AGI,仍有一些问题有待解决,比如提高多步推理能力,但是token预测作为一种方法为我们提供了一条可行的道路。Ilya对此保持着乐观态度,我们拭目以待他是否可以如愿以偿!
最后我们一起听听Ilya的这次访谈吧!点击连接,拉到文末观看