矩阵：一个用于大型语言模型的贝氏学习模型

在本文中，作者介绍了一个贝氏学习模型来理解大型语言模型（LLM）的行为。他们探讨了基于预测下一个token的LLM优化指标，并开发了一个以此原理为基础的新颖模型。他们的方法涉及构建一个理想的生成文本模型，该模型由具有先验分布的多项式转移概率矩阵表示，并研究LLM如何近似这个矩阵。作者讨论了嵌入和多项式分布之间映射的连续性，并提出了Dirichlet近似定理来逼近任何先验分布。此外，他们还展示了LLM的文本生成如何与贝氏学习原理相吻合，并深入探讨了对上下文学习的影响，特别是解释了为什么在更大的模型中会出现上下文学习，其中提示被视为要更新的样本。他们的研究结果表明，LLM的行为与贝氏学习一致，为LLM的运作和潜在应用提供了新的见解。

作者首先提出了一个抽象模型，表示世界上存在的全部书面文本/知识，用 S S S表示。这个文本有一个有限的词汇表，用 M M M表示，大小为 ∣ M ∣ = m |M| = m ∣M∣=m。在这个语料库 S S S中，每个词都以某种概率 p i p_i pi出现，在词汇表 M M M上有一个多项式分布 ( p 1 , p 2 , . . . , p i , . . . , p m ) (p_1, p_2, ..., p_i, ..., p_m) (p1,p2,...,pi,...,pm)，先验分布为 u u u。假设从这个分布中随机选取一个词，例如这个词是「Protein」。现在，在给定第一个词是Protein的情况下，在词汇表 M M M上又会生成一个多项式分布 u ( ⋅ ∣ " P r o t e i n " u(·|"Protein" u(⋅∣"Protein"。作者将这个多项式分布表示为 U ( " P r o t e i n " ) U("Protein") U("Protein")。这个多项式分布将是稀疏的（只有词汇表 M M M中的一个非常小的子集在「Protein」之后出现的概率不可忽略），两个可能具有不可忽略概率的词是「synthesis」和「shake」。如果根据这个多项式分布 U ( " P r o t e i n " ) U("Protein") U("Protein")对下一个词进行采样，我们将生成一个后验多项式分布 U ( " P r o t e i n s y n t h e s i s " ) U("Protein synthesis") U("Proteinsynthesis")或 U ( " P r o t e i n s h a k e " ) U("Protein shake") U("Proteinshake")等。 U ( " P r o t e i n s y n t h e s i s " ) U("Protein synthesis") U("Proteinsynthesis")的后验多项式分布将以与生物学相关的术语为主，而 U ( " P r o t e i n s h a k e " ) U("Protein shake") U("Proteinshake")的后验多项式分布将以与运动和健身房相关的术语为主。我们继续沿着这棵树向下进行，如图1所示。

现在我们可以看到整个文本语料库S为每个词序列（或通常称为「提示」）生成不同的多项式概率。如果我们考虑一个典型的大型语言模型（LLM），如ChatGPT，它们的词汇量可能有50,000个token（token是词/子词），它们响应的提示大小可能有8000个token。这导致了一个大小为50000×50000^8000的多项式概率矩阵，如图2所示，其中每一行对应于8000个token的唯一组合，每一列是LLM词汇表中的一个token。这个矩阵是巨大的，超过了所有星系中的原子数量。幸运的是，在实践中它通常是非常稀疏的，因为token的任意组合很可能是无意义的，出现概率为0。即使对于以不可忽略的概率出现的行，该行中的列条目也非常稀疏，因为多项式分布的大多数条目将为零（「Protein synthesis」不太可能后面跟着「convolutional networks」等）。然而，即使有行和列的稀疏性，其大小仍然超出了准确表示的能力，因此实际的生成文本模型建立在几个近似之上，作者将在下一节中介绍。在根本上，LLM试图紧凑地表示这个概率矩阵，并在给定提示的情况下，它们试图重建与提示对应的行中的多项式分布。值得注意的是，这些LLM是以「预测下一个token」作为目标函数来训练的。使用该目标函数，训练期间使用的损失函数是交叉熵损失函数。可以直接证明，在理想情况下，它们生成的最优多项式分布 ˆ u ( ⋅ ∣ " P r o m p t " ) ˆu(·|"Prompt") ˆu(⋅∣"Prompt")应该与训练语料库 S S S中存在的经验多项式分布 u ( ⋅ ∣ " P r o m p t " ) u(·|"Prompt") u(⋅∣"Prompt")相匹配，因为当 p ≡ q p ≡ q p≡q时，交叉熵 H ( p , q ) H(p, q) H(p,q)最小。然而，正如前面所述，在实践中不可能实现这种理想。在下一节中，作者将研究LLM的工作原理以及实际设置中涉及的近似。

从抽象的意义上讲，大型语言模型（LLM）通过使用给定的提示来定位概率矩阵中的特定行。从这一行中，它们提取一个多项式分布，然后指导通过从这个分布中采样来选择下一个token。例如，对于提示「The cat sat on the」，LLM生成一个多项式分布，如图3所示。token「mat」和「couch」具有最高的概率，而token「courage」或「the」具有（极低的）低概率。这个token被添加到提示中，并重复该过程，更新后的提示导致矩阵中的新行，以序列方式继续生成token。

完美的概率矩阵包含在世界上发现（或可以生成）的所有文本的行，然而，LLM只能使用训练集（全部语料库S的一个子集）来创建它的近似。LLM的行为取决于训练集ˆS的选择。因此，影响LLM性能的第一个近似是训练集的不完整性。第二个近似涉及从这个不完整集合训练生成的矩阵的表示。

另一个近似来自于将文本表示为嵌入。关于LLM如何使用嵌入进行表示的简要介绍如下：LLM通过将字符或token的序列转换为固定维度的空间来开始处理文本，其中每个唯一的token由一个高维向量（称为嵌入）表示。这种表示捕获了语言的语义和语法属性，使模型能够理解token之间的上下文关系。

例如，在Transformer架构中，嵌入作为输入层，采用注意力机制来权衡输入文本的不同部分在预测下一个token时的影响。注意力机制允许模型关注每个预测步骤的相关token，而不考虑它们在输入序列中的位置，从而能够处理长距离依赖和可变长度的输入。然后，这种表示被用于下游任务，根据文本输入生成相应的多项式输出分布，但是在本文的模型中，作者将抽象出像Transformer这样的架构的具体细节，只假设架构的输入是代表提示的嵌入向量。

图4显示了基于LLM的生成文本模型的功能块分解。用户输入文本作为提示，它被LLM转换为嵌入，然后LLM将嵌入作为输入进行处理，根据嵌入生成输出多项式分布，并从该分布中采样下一个token。下一个token被附加到提示中，再次转换为嵌入，并重复该过程，直到选择的下一个token对应「结束回应」。

理解上下文学习或一般文本生成如何工作的关键是分析网络如何响应提示，类似于深度学习中分类器泛化能力的问题。在接下来的章节中，作者论证并证明，LLM中的所有文本生成都与一种贝氏学习形式一致，而上下文学习是其中的一个特例。

在作者的模型中，每个提示都有其嵌入中的相应表示。令 E E E为嵌入空间。例如 E = R r E = R^r E=Rr。作者观察到有限数量的嵌入，例如 e 1 , . . . , e n e_1, ..., e_n e1,...,en，每个 e i e_i ei被映射到词汇量(m)大小的下一个token多项式概率向量，例如 ( p e i 1 , . . . , p e i m ) ， p e i j ≥ 0 ， Σ p e i j = 1 (p_ei1, ..., p_eim)，p_eij ≥ 0，Σp_eij = 1 (pei1,...,peim)，peij≥0，Σpeij=1。令这种概率向量的空间为 P P P。 E E E是一个度量空间。

假设T通过保凸变换将嵌入映射到 P P P。即， T ( α e 1 + ( 1 − α ) e 2 ) = α T ( e 1 ) + ( 1 − α ) T ( e 2 ) T(αe_1 + (1 - α)e_2) = αT(e_1) + (1 - α)T(e_2) T(αe1+(1−α)e2)=αT(e1)+(1−α)T(e2)。考虑P上任意 p ≥ 0 p ≥ 0 p≥0的 L p L_p Lp度量。 T T T在这个度量下显然有界于1。

连续性

定理3.1（连续性）。如果映射T保持凸性并有界，则它是连续的。

证明。考虑(E)中的任意两点 x x x和 y y y。定义 x α = α y + ( 1 − α ) x x_α = αy + (1 - α)x xα=αy+(1−α)x。这定义了从 y y y到 x x x的一条射线。相应的 T T T映像根据保凸性属性为 α T ( y ) + ( 1 − α ) T ( x ) αT(y) + (1 - α)T(x) αT(y)+(1−α)T(x)。显然，当 α → 0 α → 0 α→0时， x α → x x_α → x xα→x，并且由于 T ( y ) T(y) T(y)的有界性， T ( x α ) → T ( x ) T(x_α) → T(x) T(xα)→T(x)。因此，沿每条射线建立连续性。现在考虑任意序列 ( x n , n = 1 , 2 , . . . ) → x (x_n, n = 1, 2, ...) → x (xn,n=1,2,...)→x，则每个点都在某条射线上。因此，对任意序列建立连续性。

上述定理允许用已知嵌入所导致的多项式分布来近似未见嵌入所导致的任何新多项式分布，只要操作是线性的；例如，通过最近的k-means过程。

注意，虽然作者对嵌入到多项式分布的映射做了凸性保持的假设，这导致了他们的连续性定理，但这个性质对于贝氏统计中后验分布相对于测量误差的适定性很重要，并且在[5]中得到了证明。此外，凸性保持性质可以看作是以概率α选择一个嵌入，以概率(1-α)选择另一个嵌入，期望的线性性意味着那些嵌入所导致的相关分布在期望中也保持相同的权重。非正式地说，这个性质导致了「表现良好」的LLM，它们不会有「疯狂」的输出。

Dirichlet近似

现在作者证明，任何多项式分布上的先验都可以近似为Dirichlet分布的有限混合。

定理4.1（Dirichlet近似）。任何具有连续有界密度函数的多项式概率(u(p_1, p_2, ..., p_m))上的分布都可以近似为Dirichlet分布的有限混合。

证明。考虑多项式分布的概率 P = ( p 1 , p 2 , . . . , p m ) ， Σ p i = 1 P = (p_1, p_2, ..., p_m)，Σp_i = 1 P=(p1,p2,...,pm)，Σpi=1。现在考虑一个虚构的实验，从这个多项式分布生成(n)个观测值，导致第 i i i类中有 x i x_i xi个观测值， i = 1 , 2 , . . . , m i = 1, 2, ..., m i=1,2,...,m。令 ( ˆ P n ) = ( x 1 , x 2 , . . . , x m ) / n (ˆP_n) = (x_1, x_2, ..., x_m)/n (ˆPn)=(x1,x2,...,xm)/n，是相应的经验概率。根据大数定律， ˆ P n → P a . s . ˆP_n → P a.s. ˆPn→Pa.s.。然后，对于任何有界连续函数， E ( u ( ( ˆ P n ) ) → u ( P E(u((ˆP_n)) → u(P E(u((ˆPn))→u(P 在 P P P上一致成立。

其中，

E ( u ( ˆ P n ) ) = Σ x 1 , . . . , x m u ( x 1 / n , x 2 / n , . . . , x m / n ) × ( Γ ( n + 1 ) / ( Γ ( x 1 + 1 ) . . . Γ ( x m + 1 ) ) ) Π i p i x i E(u(ˆP_n)) = Σ_{x_1, ..., x_m} u(x_1/n, x_2/n, ..., x_m/n) × (Γ(n+1) / (Γ(x_1+1)...Γ(x_m+1))) Π_i p_i^{x_i} E(u(ˆPn))=Σx1,...,xmu(x1/n,x2/n,...,xm/n)×(Γ(n+1)/(Γ(x1+1)...Γ(xm+1)))Πipixi

现在令 D ( p ∣ α 1 , α 2 , . . . , α m ) D(p|α_1, α_2, ..., α_m) D(p∣α1,α2,...,αm)是具有参数 α 1 , α 2 , . . . , α m α_1, α_2, ..., α_m α1,α2,...,αm的m Dirichlet分布的密度。则上式可以简化为：

E ( u ( ˆ P n ) ) = Σ x 1 , . . . , x m u ( x 1 / n , x 2 / n , . . . , x m / n ) × ( Γ ( n + 1 ) / Γ ( n + m ) ) D ( p ∣ x 1 + 1 , x 2 + 1 , . . . , x m + 1 ) → u ( p ) E(u(ˆP_n)) = Σ_{x_1, ..., x_m} u(x_1/n, x_2/n, ..., x_m/n) × (Γ(n+1) / Γ(n+m)) D(p|x_1+1, x_2+1, ..., x_m+1) → u(p) E(u(ˆPn))=Σx1,...,xmu(x1/n,x2/n,...,xm/n)×(Γ(n+1)/Γ(n+m))D(p∣x1+1,x2+1,...,xm+1)→u(p)

然而，由于 ∫ u ( p ) d p = 1 ∫u(p)dp = 1 ∫u(p)dp=1，上式中间项的积分也趋于1。利用这一事实并对其进行归一化，得到：

Σ x 1 , . . . , x m u ∗ ( x 1 / n , x 2 / n , . . . , x m / n ) × D ( p ∣ x 1 + 1 , x 2 + 1 , . . . , x m + 1 ) → u ( p ) Σ_{x_1, ..., x_m} u*(x_1/n, x_2/n, ..., x_m/n) × D(p|x_1+1, x_2+1, ..., x_m+1) → u(p) Σx1,...,xmu∗(x1/n,x2/n,...,xm/n)×D(p∣x1+1,x2+1,...,xm+1)→u(p)

其中，

u ∗ ( x 1 / n , x 2 / n , . . . , x m / n ) = u ( x 1 / n , x 2 / n , . . . , x m / n ) / Σ x 1 , . . . , x m u ( x 1 / n , x 2 / n , . . . , x m / n ) u*(x_1/n, x_2/n, ..., x_m/n) = u(x_1/n, x_2/n, ..., x_m/n) / Σ_{x_1, ..., x_m} u(x_1/n, x_2/n, ..., x_m/n) u∗(x1/n,x2/n,...,xm/n)=u(x1/n,x2/n,...,xm/n)/Σx1,...,xmu(x1/n,x2/n,...,xm/n)

在适当的正则性条件下，该定理更加一般。在这些条件下，收敛在 L 1 L1 L1和 p p p的全变差中成立，后验也收敛。这个定理的一个特例是具有 B e t a Beta Beta先验的二项分布，从而任何二项分布的任意先验都可以用 B e t a Beta Beta分布的混合来近似。类似的结果适用于一般的指数族，以及用Dirichlet过程的混合来近似随机概率测度。

定理4.1可以通过识别一小组「基」来有效设计LLM，通过它可以生成任意的多项式分布。它可以帮助识别特定任务的正确训练集，以创建这个基集。目前训练LLM的做法是使用「互联网」的轻度策划版本（维基百科、Reddit帖子等），需要一种严格的方法来创建训练集。

作者认为，LLM的文本生成与贝氏学习过程一致。当LLM被提供提示时，它经历两个步骤。首先，无论它存储的矩阵的当前表示是什么，它都会找到与提示的嵌入「最接近」的嵌入，并且通过定理3.1和4.1对多项式分布的近似作为贝氏学习的先验。接下来，提示本身的嵌入被视为新的证据（似然），并将两者结合起来计算后验，然后将其用作下一个token预测的多项式分布。注意，如果提示是LLM已经训练过的嵌入，那么贝氏学习只是将先验分布作为后验返回（这也是训练期间最有效的学习过程，以最小化交叉熵损失）。当提示包含「新」内容时，后验会根据这个新证据进行调整。这个过程如图5所示。后验调整的效率和准确性取决于LLM的大小，在接下来的小节中，作者表明LLM模型中的上下文学习与贝氏学习一致。

上下文学习-预备知识

上下文学习是一种技术，通过给LLM提供特定任务的提示来生成特定任务的响应。有许多方法可以做到这一点，无论是零样本还是少样本学习。上下文学习可以分为三大类：

常规上下文学习

翻转标签上下文学习

语义无关上下文学习（SUIL）

基本上，与常规上下文学习相比，翻转标签上下文学习允许LLM提示具有翻转的卷标，使卷标与预训练的LLM模型相反。例如，在情感分析任务中，在提示时将「积极」翻转为「消极」，反之亦然。在语义无关上下文学习（SUIL）中，例如将「积极」转换为「foo」，将「消极」转换为「bar」；两者在预训练模型中都是语义无关的。

令人惊讶的是，LLM能够处理这些不一致性，并能够根据LLM的参数数量相当快地适应新标签。在下一小节中，作者引入了使用Dirichlet分布的贝氏范式，并表明LLM的这种行为与贝氏学习一致。

贝氏学习就是上下文学习

作者从SUIL的更简单情况开始，其中只有两个标签 A A A和 B B B，只有一个标签从 A A A更改为 B B B。由于在任何阶段自动生成都是由矩阵的一行对应的多项式分布完成的，如果我们只考虑标签 A A A和 B B B的出现，相应的分布将是二项 ( n , p ) (n, p) (n,p)，其中 n n n是样本大小， p p p是相应的出现概率。对于作者的论述，除了假设标签 A A A和 B B B的出现是二项式的，对于贝氏设置，他们进一步假设它具有 B e t a Beta Beta先验。当多个标签被更改时，无论这个假设如何，定理4.1中证明的结果都成立，因为任何二项式概率上的先验分布都可以用(Beta)先验的混合来近似。它还表明，当多个标签被更改时，整个发展可以推广到多项式分布和Dirichlet先验以及Dirichlet先验的混合。

回想一下，如果 X B i n ( n , p ) X~Bin(n, p) X Bin(n,p)，先验为 p B e t a ( α , β ) p~Beta(α, β) p Beta(α,β)，固定 n n n，则

p ∣ n , x B e t a ( α + x , β + n − x ) p|n, x ~ Beta(α+x, β+n-x) p∣n,x Beta(α+x,β+n−x)

相应的后验均值为 E ( p ∣ n , x ) = ( α + x ) / ( α + β + n ) E(p|n, x) = (α+x)/(α+β+n) E(p∣n,x)=(α+x)/(α+β+n)，后验方差为 V a r ( p ∣ x , n ) = ( ( α + x ) ( β + n − x ) ) / ( ( α + β + n ) 2 ( α + β + n + 1 ) ) Var(p|x, n) = ((α+x)(β+n-x))/((α+β+n)^2(α+β+n+1)) Var(p∣x,n)=((α+x)(β+n−x))/((α+β+n)2(α+β+n+1))，其为 O ( n 2 ) O(n^2) O(n2)。此外， α + β α+β α+β可以视为A和B的先验样本大小， α α α是 X A X_A XA的先验出现次数。

现在考虑SUIL最不受限制的情况，即LLM在卷标 A A A上训练，卷标 B B B很少出现。

考虑根据基础LLM的训练数据有条件地在A出现时自动生成的响应。那么A和B的训练分布可以表示为二项式分布； ( p A , p B ) (p_A, p_B) (pA,pB)， p A + p B = 1 p_A+p_B=1 pA+pB=1， ( p A , p B ) (p_A, p_B) (pA,pB)的先验为 B e t a ( α A , β B ) Beta(α_A, β_B) Beta(αA,βB)。由于LLM的训练数据主要基于卷标A，很少出现B，我们将有 α A ≫ β B α_A≫β_B αA≫βB。因此， E ( p A ∣ n = 0 ) = α A / ( α A + β B ) ≈ 1 E(p_A|n=0)=α_A/(α_A+β_B)≈1 E(pA∣n=0)=αA/(αA+βB)≈1， E ( p B ∣ n = 0 ) = α B / ( α A + β B ) ≈ 0 E(p_B|n=0)=α_B/(α_A+β_B)≈0 E(pB∣n=0)=αB/(αA+βB)≈0。此外，由于LLM是在许多标签上训练的， α A α_A αA会相对较小，尽管远大于 β B β_B βB。

现在考虑SUIL的上下文学习。在这里，作者们用 n n n个提示中的 B B B替换 A A A，因此有 x B = n x_B=n xB=n个 B B B的提示和 x A = 0 x_A=0 xA=0个 A A A的提示，其他所有上下文保持不变。在这种情况下，

E ( p A ∣ x A , x B ) = α A / ( α A + β B + n ) E(p_A|x_A, x_B) = α_A/(α_A+β_B+n) E(pA∣xA,xB)=αA/(αA+βB+n)，

E ( p B ∣ x A , x B ) = ( β B + n ) / ( α A + β B + n ) E(p_B|x_A, x_B) = (β_B+n)/(α_A+β_B+n) E(pB∣xA,xB)=(βB+n)/(αA+βB+n)

因此，很明显，随着标签B的提示数n的增加， E ( p B ∣ x A , x B ) → 1 ， E ( p A ∣ x A , x B ) → 0 E(p_B|x_A, x_B)→1，E(p_A|x_A, x_B)→0 E(pB∣xA,xB)→1，E(pA∣xA,xB)→0。

作者用下表检查了这种收敛的定性行为，其中 α = 0.3 ， β = 0.0 α=0.3，β=0.0 α=0.3，β=0.0。这里 α A / β B = 30 α_A/β_B=30 αA/βB=30。可以看出，仅用三个翻转的样本，后验几乎调整为从预训练的先验翻转标签的概率。

n ∣ E ( p A ∣ n ) ∣ E ( p B ∣ n ) n | E(p_A|n) | E(p_B|n) n∣E(pA∣n)∣E(pB∣n)

0 | 0.968 | 0.032

1 | 0.229 | 0.771

2 | 0.13 | 0.87

3 | 0.091 | 0.909

表1： n n n个提示和 α = 0.3 ， β = 0.0 α=0.3，β=0.0 α=0.3，β=0.0时 E ( p A ∣ n ) E(p_A|n) E(pA∣n)、 E ( p A ∣ n E(p_A|n E(pA∣n的行为

如果 α A ≪ n α_A≪n αA≪n，类似的行为仍然存在。此外，为了检查渐近行为，考虑

E ( p A ∣ n ) / E ( p A ∣ n = 0 ) = 1 / ( 1 + n / ( α A + β B ) ) E(p_A|n)/E(p_A|n=0) = 1/(1+n/(α_A+β_B)) E(pA∣n)/E(pA∣n=0)=1/(1+n/(αA+βB))。

这表明，即使 α A ≫ β B α_A≫β_B αA≫βB导致 E ( p B ∣ n = 0 ) ≈ 0 E(p_B|n=0)≈0 E(pB∣n=0)≈0，只要 ( α A + β B ) (α_A+β_B) (αA+βB)很小，即使在SUIL情况下，上下文学习也会非常快。

通过模拟，类似的结果适用于其他类别的上下文学习，以及当多个标签被替换时。最后，由于思维链学习是一种上下文学习，相同的结果也适用于它。

根据经验表明，适应翻转标签上下文学习和SUIL的能力取决于模型的大小------更大的模型学习效果优于较小的模型。贝氏学习也通过增加 ( α A + β B ) (α_A+β_B) (αA+βB)来模仿这种行为，即增加先验样本大小，导致围绕标签的分布更加尖锐。表2显示了 α = 3 ， β = 0.1 α=3，β=0.1 α=3，β=0.1的情况。这里 α A / β B α_A/β_B αA/βB仍然等于30。与前面的例子不同，这里的后验调整较慢，在3个样本后，两个卷标的概率几乎相等，而在前面的例子中，它们几乎翻转了。

n ∣ E ( p A ∣ n ) ∣ E ( p B ∣ n n | E(p_A|n) | E(p_B|n n∣E(pA∣n)∣E(pB∣n)

0 | 0.968 | 0.032

1 | 0.732 | 0.268

2 | 0.588 | 0.412

3 | 0.492 | 0.508

表2： n n n个提示和 α = 3 ， β = 0.1 α=3，β=0.1 α=3，β=0.1时 E ( p A ∣ n ) E(p_A|n) E(pA∣n)、 E ( p A ∣ n ) E(p_A|n) E(pA∣n)的行为

这种行为可以直观地解释，因为更大的模型往往具有更多的token和参数，因此在训练期间，它们获得更多的一般知识，将概率分散到更多的标签和参数上。这将导致任何两个标签的 α A + β B α_A+β_B αA+βB更小，作者的模型解释了随着更大模型出现的上下文学习。

模型的影响

在本节中，作者介绍了他们模型的一些影响，除了上下文学习之外：

嵌入的重要性

作者表明，贝氏学习在LLM中的性能关键取决于嵌入的性能。具体而言，他们基于嵌入到下一个token多项式分布的映射保持凸性的假设，证明了一个「类Lipschitz」连续性质，而关于连续性重要性的一般结果已在中建立。嵌入通常作为LLM训练过程的一部分来学习，称为上下文相关的，但也可以独立于它。作者的性质意味着，例如「love」和「glove」等词的嵌入应该（足够）远，以便在映像到下一个token预测概率分布时保留语义。这可以通过纯粹在语言上训练来学习。有时，语言模型也训练世界知识，这意味着例如「Robert F Kennedy」和「Robert F Kennedy Jr.」的嵌入应该相距很远。然而，将世界模型与语言模型混合可能会导致不可预测的结果，需要仔细考虑。将LLM和嵌入仅在语言和逻辑上训练并主要通过提示引入世界模型或知识可能是最佳的，并让贝氏后验将这些知识纳入生成的文本中（一种通常称为检索增强生成或RAG的技术）。然而，这需要进一步探索，是作者未来工作的一部分。

思维链推理

最近，思维链（CoT）推理已被证明是提高LLM答案准确性的有效方法。这似乎是一个自然的结果，因为如果LLM将问题分解为更简单的步骤，它们可能已经在其他上下文中训练过这些更简单的步骤，一旦为当前提示生成更简单的步骤，LLM就会拟合与之前训练的步骤最接近的嵌入，并通过提到的贝氏学习过程生成相应的多项式分布。如果没有逐步分解，LLM可能没有（充分）训练类似的输入，因此生成的多项式概率可能不准确，因此思维链通常优于普通提示。

深度学习架构

在作者的工作中，他们将特定的深度学习架构视为一个黑盒，用于有效编码训练语料库中与嵌入相关的下一个token多项式概率。在过去几年中主导LLM世界的架构是Transformer，然而最近基于结构化状态空间模型（SSM）的模型，如Mamba，在解决Transformer模型的计算效率方面显示出很大的前景。哪种架构在参数效率或计算效率方面是最佳的仍然是一个有趣的开放问题。从作者的观点来看，LLM的关键特征是预测下一个token的优化指标，以及训练期间的交叉熵损失，这在各种神经网络架构中是共同的。

幻觉

LLM的一个反复出现的问题是幻觉，即LLM似乎编造了一些东西。鉴于LLM的预期应用，即创造性文本生成或提供事实，这可能是一个特点或一个bug。通过将LLM视为本质上是提示嵌入和下一个token多项式概率之间的映射，作者可以推理LLM在生成答案中的「置信度」。特别是，我们可以查看所选token相关的多项式分布的熵，并对幻觉做出声明。一般而言，较低的熵表示更尖锐的分布和对答案更高的置信度。在附录中，作者给出了一个结果，定理8.2，它可以作为选择下一个token以减少熵并增加置信度的指南。对该主题的完整处理超出了当前提交的范围，但它给出了在作者框架下可能进行的分析类型的示例。请注意，该分析对于产生下一个token预测的任何LLM都是有效的，并且不依赖于作者对贝氏学习的任何假设。

大上下文大小

一些LLM，如Anthropic的Claude和GPT4，已经开始提供极大的上下文大小（Claude为100K tokens，GPT4为128K tokens）。然而，对这些具有更大上下文的LLM生成的文本的实验评估表明，在保持参数大小不变的情况下，这些LLM的准确性和召回率较低。这再次可以用作者的模型来解释。如果LLM试图紧凑地表示大概率矩阵，那么从8000（GPT 3.5）的上下文大小到128的上下文大小是矩阵行大小的巨大增加（从50000^8000 到 50000^128000），毫不奇怪，模型无法保留完整的上下文，后验计算发生在更大的可观测变量上。所需的近似变得更加难以处理。因此，虽然理论上LLM已经开始接受大的上下文大小，但不太可能使用相同的基本预测下一个token架构，由较短上下文模型展示的准确性将由较大上下文模型复制。然而，这是一个有趣的探索方向。

改写自论文: https://arxiv.org/pdf/2402.03175

结论

在本文中，作者提出了一个新的模型来解释大型语言模型的行为。他们的参考框架是一个抽象的概率矩阵，其中每一行包含下一个token预测的多项式概率，其中行表示特定的提示。然后，他们证明LLM文本生成与通过嵌入和贝氏学习的组合对这个抽象矩阵的紧凑表示一致。他们的模型解释了随着LLM规模的（出现）上下文学习，以及其他现象，如思维链推理和大上下文窗口的问题。最后，作者概述了他们模型的影响以及未来探索的一些方向。

这篇论文提出了一个创新的贝氏学习模型，来理解和解释大型语言模型的行为。作者从基于预测下一个token的优化指标出发，构建了一个抽象的概率矩阵作为模型的基础。通过嵌入和贝氏学习的组合，他们展示了LLM如何以紧凑的方式表示这个巨大的矩阵。此外，作者还证明了LLM的文本生成与贝氏学习原理一致，并深入探讨了对上下文学习的影响。

这项研究的重要贡献在于提供了一个统一的框架来分析LLM的运作方式。通过将LLM视为提示嵌入和下一个token多项式概率之间的映像，作者能够解释许多实证观察到的现象，如上下文学习随模型规模的出现、思维链推理的有效性以及大上下文窗口的问题。这为理解和改进LLM提供了宝贵的见解。

此外，作者还讨论了他们模型的一些影响，包括嵌入的重要性、思维链推理、深度学习架构的选择、幻觉以及大上下文大小的问题。这些讨论突出了该模型在指导未来LLM研究和开发方面的潜力。

这项工作为理解和分析大型语言模型的行为提供了一个新颖而有前景的视角。通过将LLM的运作与贝氏学习联系起来，作者提供了一个强大的理论框架，有望推动该领域的进一步研究。尽管还有一些开放性问题有待探索，但这项研究无疑是朝着更好地理解和改进LLM迈出的重要一步。

我的观点

从我的角度来看,这篇论文的主要贡献和价值在于提出了一个创新的贝氏学习模型,为理解和分析大型语言模型(LLM)的行为提供了一个全新的视角。作者从LLM基于预测下一个token的优化目标出发,构建了一个抽象概率矩阵作为理论基础,并通过嵌入表示和贝氏学习的巧妙结合,展示了LLM如何以一种紧凑的方式去逼近这个庞大的矩阵。

我认为作者的理论框架最大的优势在于其解释力和一般性。通过将LLM视为提示嵌入到下一个token多项式分布的映像,该模型可以很好地解释LLM的许多经验特性,例如随模型规模增大而出现的上下文学习能力、思维链推理的有效性,以及使用大上下文窗口所面临的困难等。这些洞见不仅加深了我们对LLM运作机制的理解,更为后续的算法改进和模型设计提供了理论指导。

此外,作者通过一系列严谨的数学推导,例如嵌入到多项式分布映像的连续性定理、狄利克雷近似定理等,为其贝氏学习框架奠定了坚实的理论基础。这些理论结果不仅支撑了作者基于贝氏学习的论证,同时也为其他研究者在这一领域的深入工作提供了很好的数学工具。

不过我认为这项工作仍然存在一些可以进一步探索和完善的空间。首先是如何在工程实践中更好地应用和体现该理论框架的洞见,例如如何利用嵌入的连续性指导模型训练,如何基于狄利克雷近似定理改进模型的参数效率等。其次,对于文中提到的一些开放性问题,例如最优的深度学习架构选择、幻觉的消除等,作者的讨论还比较初步,有待后续研究给出更具体和可操作的方案。

总的来说,我认为这项工作具有很高的理论价值和启发意义。它为LLM这一热门而复杂的研究对象提供了一个全新的视角,构建了一个优雅而深刻的数学模型。作者通过严谨的推导和分析,展示了贝氏学习框架在解释LLM行为上的强大潜力。这一理论工作不仅加深了我们对LLM的理解,也为后续的算法改进和工程实践带来了重要的启发和指引。相信在这一理论指导下,未来将会涌现出更多利用贝氏思想的LLM优化方法,推动自然语言处理技术的进一步发展。