编者按: 近日,美国科技巨头 Google 宣布推出其认为规模最大、功能最强大的人工智能模型 Gemini,这种技术能够处理视频、音频和文本等不同内容形式的信息。那么机器学习模型与人类智能相比,谁的学习效率高? 许多人认为,人类大脑在学习效率上要远远优于我们目前训练的任何机器学习模型。面对这样的观点,本文作者进行了一番有趣的计算与思考。
今天为大家带来的这篇文章,作者的核心观点是:从接受的原始训练数据量来看,三岁小孩子的学习效率并没有明显优于主流大语言模型。
本文为我们提供了一个有趣的视角,来审视人类智能与机器智能之间的关系。可能为我们对两者进行更系统地比较提供参考。当然,仅仅从信息量的角度来看问题还不够全面,我们还需要考虑学习过程中的许多其他因素。不过,这绝对是一个值得思考的新视角。
作者 | jbetker
编译 | 岳扬
人们在机器学习话题讨论中经常出现的一种说法,令我感到十分不满,即人类比我们目前训练的任何模型在学习效率上都要更加高。这种论点通常是这样的:
"有一天,我突然发现我 3 岁的孩子已经掌握了很多知识,让我大吃一惊。虽然他们只接受了非常少的训练数据,但他们比大多数语言模型都要聪明。显然,我们训练的模型缺少了一些重要的东西,因为它们无法像我三岁的孩子那样学习!"
但是,三岁孩子的训练数据量真的比主流的语言模型小吗?为了好玩,我想进行一些简单的数学计算,将数字降至我们可以理解、推理的水平。
以Llama 65B为例,该模型是在1.4T个token上训练的。为了方便计算,假设语言模型中使用的词汇表大小(the codebook size)为65536,这意味着每个token表示16位数据。同时也意味着Llama总共训练了22.4 TBits的数据。
01 人类接收的"训练数据"
我们尝试计算一个人在3年内能够接收多少信息。首先,将我们在世界上的所有经历分解成各个"体验(experiences)",这些"体验"在这 3 年中每隔一段时间就会发生一次。假设人类每秒钟都有一次新的"体验"(可能比这更频繁),我们还假设人类平均每天醒着 12 小时。在 3 年的时间里,意味着一个人将有 3 * 365 * 12 * 60 * 60 = 47,304,000 次"体验"。
现在,我们将这三年的体验与我们用来训练那个65B Llama模型的数据进行比较:22,400,000,000,000 Bits / 47,304,000个"体验"= 473,532 = 474 KBit / 体验。也就是说,如果人类的每一次经历都有超过 474 KBit 的信息,那么从技术上讲,3 岁的人类接受训练的原始信息量要比Llama 65B更多。
1.1 视觉信息
据互联网上的内容显示,人眼可以感知5.76亿像素和1000万种颜色。1000 万种颜色约为 23 Bits。由于我们有两只眼睛,因此每个观察结果有576,000,000个像素 * 23个Bits/像素 * 2种可能的观察状态。这样算下来,每次"体验"就有 26GBit 的信息量。但我认为人脑实际上并不能感知所有的视觉信息。相反,它关注的只是很小的一部分(这就是所谓的注意力机制(attention)吧!)。 但即使是 26GBit 的很小一部分,也是一个很大的数字!基本上,无论你如何尝试减小这个数字,它都会很大。
1.2 音频信息
年轻人能感知的声音频率最高可达 20kHz。我不知道如何测量我们的耳朵可以感知的声压波动的精细程度,因此我将使用8 Bits(255个声压值)作为合理的下限。 这意味着在一秒钟内,人类理论上可以感知 20,000 * 8=160 KBits 的音频数据。
1.3 触觉、嗅觉和味觉信息
从理论上讲,嗅觉是通过化学物质与嗅觉受体结合来实现的。结合的动作就是开或关的切换,而根据互联网资料,我们有大约 400 种不同的嗅觉受体。这就意味着从嗅觉中可以轻松获得 400 Bits 的信息。
我将以类似的方法测量触觉------根据互联网资料,我们有大约400万个触觉受体(为什么总是出现 4 这个数字?)。每个受体是独立的,并且(我假设?)可以开或关,这意味着有 4MBits 的触觉信息。
味觉是触觉、嗅觉和味蕾的复杂组合。我们可以尝到大约5种独立的味道,假设嗅觉和触觉已经在上面计算了。因此,我们可以说味觉是简单的 5 Bits 信息。
1.4 总结
我不打算将所有这些信息源叠加在一起,因为我认为这都是空中楼阁。我想说的是------我希望我已经清楚地证明了这一点------我们可以很容易地提出这样的论点:人脑能够实现每秒钟接收 474 KBit 的信息。
如果我们能够提出上面这个说法,那么我们也可以声称一个三岁的孩子很可能已经接受了与Llama 65B相同数量的数据进行训练(尽管我认为3岁孩子接受的数据量可能更多!)
02 人类接受的信息具有冗余
我预计有部分人会提出以下反驳:大多数人类的"体验"是冗余的!即使总信息的输入非常密集,但是新颖信息的数量也相当小!
但我们训练的模型也是如此!这些模型所训练的文本数据集由互联网上的所有人类文本组成。这必然是高度冗余的------毕竟人类喜欢每天谈论同样的事情(政治、性、战争、食物、减肥、锻炼、运动、时尚等等),绝大多数人类文本的语义熵都非常低。
我认为冗余对于一个学习系统(learning system)是非常重要的。它有助于信息压缩,而压缩(compression)这一行为似乎与智能(intelligence)相关。通过长期接触相同的观察结果,我们会知道什么是重要的,什么是不重要的。高度冗余的"体验"会逐渐从我们的注意力中消失,我们转而关注新颖的、意想不到的事件。如果我们的模型以同样的方式工作,我也不会感到惊讶。仅仅是训练多个epochs并进行合理的数据增强(data augmentations)就可以提高模型性能,这一事实似乎是证明这种情况的一个小信号。
03 其他类型的数据效率
在谈论人类大脑时,只考虑数据效率是不切实际的。 就能源效率而言,我们的大脑非常了不起。我不认为芯片的硅效率能达到这种水平。不过,这也让我对未来人工智能的发展充满了信心!如果在我们所能达到的微不足道的效率下,我们的能力就已经如此强大,我迫不及待地想看看十几二十年后人工智能会是什么样子。
END
本文经原作者授权,由Baihai IDP编译。如需转载译文,请联系获取授权。
原文链接: