零、前言
📌本文为稀土掘金技术社区首发签约文章,30天内禁止转载,30天后未获授权禁止转载,侵权必究!
📕欢迎访问:
知乎:www.zhihu.com/people/soeu...
Bilibili:space.bilibili.com/57089326
注意,本文不涉及太多复杂的公式与数学推导,初学者或者像笔者一样数学不好的读者可以放心阅读!
一、概述
在语言习得过程中,儿童会按照一定的学习阶段顺序进行学习。 他们首先学会对音素进行分类,然后发展出词汇,最终掌握越来越复杂的句法结构。
比如聪明的Tom正在学习他的母语英语,他可能会先学会区分元音和辅音这两种音素,然后逐渐学会发音更复杂的音素,如浊音和清音的区别。接着,他会开始学习词汇,例如学会认识和使用一些基本的单词,如"apple"、"dog"等等。最后,他会逐渐学会构建更复杂的句子,这就是所谓的顺序学习。
然而,导致这种按顺序学习的原因仍然大多未知,也不知道能不能用于计算机。为了研究这个问题,本文作者比较了深度语言模型和儿童的学习轨迹。
作者以GPT-2为例(应该是为了训练方便,节省时间和算力开销),测试了GPT-2在训练过程中是否展现出与18个月到6岁儿童观察到的语言习得阶段相似的阶段,下面我们来具体说一说。
二、婴儿的阶段性语言学习
何为阶段性?在人类婴儿的第一年内,他们先后习得韵律轮廓、语音类别和常用单词。
然而仅有这些还不能被称之为语言,还需要以下内容:
- 句法结构("男孩唱歌")------12个月;
- 问题("牛发出什么声音?")------30个月;
- 嵌套的句法结构("我看到的男孩唱歌")------42个月;
虽然这个时间可能并不一定准确,但孩子们这个顺序是固定的,这就是所谓的阶段性。
然而,我们对于儿童整个学习轨迹的理解仍然非常粗略,部分原因是由于在幼儿中测量语言技能的困难。
在婴儿中,实验者通常采用一些 "隐式" 的方法,即测量他们处理语言刺激时的目光注视和吸吮率,因为这些反射行为在出现惊奇事件时会增加。
不过,这些方法在年龄比较小的婴儿身上得到的测量结果可能会存在噪音。
三、语言模型和婴儿一样吗?
有趣的是,这种噪音情况并不适用于现代语言模型 。训练用于从上下文中预测词汇的深度学习架构已证明在学习处理自然语言方面极为有效。
与人类不同,这些算法可以在训练期间轻松地被探测,任何时间点和速率,以及使用无限数量的测试刺激,而不会干扰他们的语言习得。
此外,高性能的深度网络已被证明能够隐式或显式地学习表示和使用句法结构 ,以及使用具体性和词汇类别等特征来学习语言。
最重要的是,这些深度神经网络最近已被证明在表示词汇,句法上类似于成年人大脑 。因此,证明儿童和语言模型具有相似的学习轨迹 可能为更好地理解语言习得的计算原理提供宝贵的框架。
或者可以说,语言模型和儿童的学习终点都是类似成年人的大脑,现在我们就要来看一看初始阶段是否一样。
那么,现在有三个问题就浮出水面了:
- 这些模型是否按照系统的顺序学习语言技能?
- 这个轨迹是顺序的还是并行的?
- 这个轨迹是否与儿童的轨迹相似?
我们首先概括一下本文作者的方法,随后给出更详细的说明:
概括来讲,作者从头开始训练48个GPT-2架构,然后使用来自BLiMP,Zorro和BIG-Bench基准测试的96个语法探针 ,在每个训练步骤中评估它们的语言能力。最后将其中一部分探针与年龄介于18个月至6岁之间的54名儿童的行为进行比较。
这里可能就有一些疑惑了,什么是BLiMP,Zorro和BIG-Bench基准测试?什么是语法探针?
3.1 三种基准测试
当我们评估一个语言模型的性能时,我们需要一些标准化的测试数据集来比较不同模型之间的表现。简单来说,BLiMP,Zorro和BIG-Bench就都是这样满足要求的标准化测试数据集,如果读者有兴趣了解更具体的内容烦请自行搜索,篇幅所限这里就不给出了。
3.2 语法探针
Zero-shot linguistic probes是指一些设计良好的句子或短语,用于评估模型是否已经学会了特定的语言技能,不需要在该技能上进行训练或调整模型,是一种比较轻量级的方法。
这种语法探针比较了一个语法正确的句子的估计概率和一个匹配的语法不正确的句子的估计概率。
具体来说:给定探针的准确性是估计的语法句子的概率高于不语法句子的比例。
通过评估softmax层输出的损失的对数之和来比较pair<正确语法, 不正确语法>
中的每个句子的概率:
- 其中f是语言模型的softmax层;
- X_g和X_u分别是正确语法和不正确语法的句子;
- n_g和n_u分别是正确语法和不正确语法的句子中的标记数。
如果模型能够正确地区分这些句子,那么我们就可以认为它具备了相应的语言能力。
举个例子,假设我们要测试模型的主谓一致能力,我们可以设计一对句子:
- The cat is sleeping on the bed.
- The cat am sleeping on the bed.
显然,第一句是语法正确的,第二句是语法不正确的。然后,我们可以比较模型对这两个句子的输出概率,以确定模型是否能够准确地区分这两个句子。如果模型能够区分这两个句子,并且正确地将第一句的概率设为更高,那么我们就可以认为模型具备了主谓一致的语言能力。
四、一探究竟
4.1 顺序学习与并行学习
如上图所示:
- 技能表现(y轴),训练过程(x轴);
- 三个任务(以颜色区分);
- 两个实体(Agent1儿童,Agent2模型,原因是模型可以更准确的测量,所以那个线更加确定)。
顺序学习和并行学习可能在相同的训练步骤达到任意性能门槛:
- 顺序学习意味着在最简单的技能(绿A & 蓝B)完全学会之前,并不开始学习复杂技能(红C)。
- 并行学习意味着所有技能同时获取,但速度不同(就像是背单词)。
作者还提出了一个零假设,即具有不同随机种子的神经网络可能按不同的顺序学习技能,这个是随机的。
作者还通过执行一种称为单因素方差分析 的统计检验来确定是否存在不同的学习速度 。单因素方差分析是一种用于比较多组数据之间差异的方法。作者将探针分为三组,并比较它们在前三个check point中的学习速度是否存在显著的差异。如果存在显著的差异,那么这意味着模型采用了不同的学习速度,可能是由于采用了不同的学习策略或者学习能力有所不同。
4.2 评估学习轨迹
为了评估不同模型在学习不同语言能力时的学习轨迹是否相似 ,作者使用了一种称为习得时间的度量方式来比较模型在不同语言能力上的表现。对于每个语言探针,作者记录了每个模型达到90%准确率所需的步骤数,并将这些步骤数进行排名。然后,作者计算了不同模型之间的排名相关性,并对这些相关性进行平均。
为了检验这个平均相关性是否显著,作者使用了一种称为置换检验的方法。他们将一个模型的排名与另一个模型的排名进行随机置换,然后重新计算相关性。
这个过程被重复1000次,以得到1000个置换相关性的值。如果所有置换相关性都小于真实的平均相关性,那么就可以得出结论:模型之间的学习轨迹是相似的,其p值小于0.001。
4.3 评估儿童的语言技能
Friedmann等人研究了54个以希伯来语为母语的儿童,年龄在18个月至71个月之间,并研究了11个语言现象的出现情况,这些现象被作者提出分为三个阶段,分别是主谓(SV)顺序的简单句子、疑问句和关系从句:
数据收集了每个孩子在家中产生的自发的语言样本,然后手动注释每个样本以检测每个语言现象的存在。只有在语言样本中存在某种语言现象时,这种语言现象才被认为已经习得。
如上表,作者展示了模型中哪些探针与这些测试匹配。
3 结果
在训练结束时,64个探针(66%)在所有模型达到了50%准确率。
另外,由Hugging Face提供的GPT-2 Large预训练版本在一个更大的数据集上进行训练,可以在96个探针中的93个上实现50%准确率的表现。
3.1 模型存在系统的学习轨迹
下图按照它们的平均习得时间列出了所有达到50%准确率的探针:
这些结果表明,模型之间存在系统的学习轨迹。
3.2 跨语言任务的学习是并行的
如上图,作者将语法探针分为3组(易习得,中等难度习得,难习得),每个探针绘制一条线。阴影表示组内探测的均值标准误差。
在前三百个步骤中,三组所有测试中有95%都具有正的导数。然而,它们具有不同的学习速率,通过对每个组和每个模型中获得的学习速率进行单因素方差分析测试进行评估,结果发现p < 10^{-23}。
这张图说明语言技能是并行学习而不是顺序学习的。
3.3 与儿童比较
我们观察到语言模型学习这三个探针的顺序与儿童大致相同,如下图:
3.4 模型同时使用语法和启发式
先举个例子:李华的猫饿了,李华的猫是主语,饿了是谓语,一一对应,这就是所谓的一致。
模型在语言探测任务中的高准确度既受句法规则 的影响,也受启发式方法的影响,尤其在一致情况下。
然而,在不一致的情况下,模型更倾向于使用启发式方法而非准确的句法规则。更大规模的训练数据集可能有助于模型更好地学习语法规则。
4 讨论与尾声
语言模型学习语言现象的顺序与儿童类似,表明它们在语言技能习得方面存在相似性。这种学习顺序的一致性可能受到两个因素的影响:语言现象在自然语言中的频率和它们的内在复杂性。未来的工作需要进一步研究和控制这些因素,以更好地理解学习的过程。
最近的研究表明,面向儿童的训练数据可以使Transformers模型达到与大型预训练模型相当的语言探针准确度,并且GPT-2的表示与成年人大脑的表示变得越来越相似。这也就回答了我们前文中的问题,语言模型和儿童的学习终点都是类似成年人的大脑,现在,初始阶段也基本上一样了。
不过,在确定模型和儿童语言习得之间的相似性和差异性时,仍需要进行大量的工作和研究。
除此之外,该研究引发了本土主义和经验主义之间的争论,但现代语言模型的研究有助于解决这一争论。
本土主义(Innatism)认为语言习得是人类内在的天赋能力。这种观点认为人类大脑具有特定的语言结构或普遍语法的先天知识,这种知识指导并塑造了语言习得的过程。
经验主义(Empiricism)则认为语言习得是通过经验和环境的学习获得的。根据这种观点,语言习得是通过对周围环境中的语言输入进行统计和归纳来实现的。
儿童和语言模型之间存在相似之处的这一结果暗示着可能存在固有的语言结构层次,人类和机器都需要通过归纳偏置或训练数据的特性来习得语言能力。
尽管这些假设尚未被证实,但包括本文在内的这些研究为解决这些问题提供了清晰的路径。
FIN