大语言模型--能力

能力

大语言模型


从语言模型到任务模型的转化

在自然语言处理的世界中,语言模型 p p p是一种对代币序列 x 1 : L x_{1:L} x1:L这样的模型能够用于评估序列,例如 p ( t h e , m o u s e , a t e , t h e , c h e e s e ) p(the,mouse,ate,the,cheese) p(the,mouse,ate,the,cheese)同样,它还可以用于在给定提示的条件下生成的序列,如 the mouse ate ⇝ the cheese \text{the mouse ate}⇝\text{the cheese} the mouse ate⇝the cheese。

我们使用"适应(Adaptation)"来指代将语言模型转化为任务模型的过程。这个过程需要以下两个输入:

  • 任务的自然语言描述
  • 一组实例训练(输入-输出对)

我们主要有两种方式来进行这种适应:

  • 训练(标准的有监督学习):训练一个新模型,生成能够将输入映射到输出。这可以通过创建一个新模型并利用语言模型作为特征(标记法),或者从现有的语言模型出发,根据实例训练进行更新(配置),或者在这两者之间找到平衡(轻量级的配置)。以上内容将在第十一章进行学习(大模型之适配)。
  • 提示(上下文描述)学习:根据对任务的建一个或一组提示/上下文信息,将其输入到语言模型中以获取基于该任务的生成结果。

语言建模

在语言自然处理(NLP)领域,除了研究大型语言模型,我们还需要深入探讨一些基础任务。比如,我们要对GPT-3的各种功能有研究的认知,并真正理解如何优化给定模型的提示(当前仅通过基于提出的信息就可获得性能的提示已经成为了认知)。这些都是语言模型研究的核心部分。最深入的方法是验证语言模型是否能够有效地模仿和理解语言。

困惑度(Perplexity)是一个重要的指标,是自然语言处理和语言模型中的一个重要概念,用于简化语言模型的性能。它可以解释模型在预测下一个词时的平均不确定性。也就是说,如果一个模型的困惑度较低,那么它在预测下一个词的时候就会更加准确。对于给定的语言模型和一个测试数据集,困惑度被定义为:

P ( X ) = P ( x 1 , x 2 , . . . , x N ) ( − 1 / N ) P(X) = P(x_1,x_2,...,x_N)^{(-1/N)} P(X)=P(x1,x2,...,xN)(−1/N)

其中, X = x 1 , x 2 , . . . , x N X=x_{1},x_{2},...,x_{N} X=x1,x2,...,xN是集中测试的词序列, N N N是测试集中的总词数。困惑度与语言模型的质量紧密相关。一个优秀的语言模型能够准确预测测试数据中的词序列,因此它的困惑度应该更低。相反,如果语言模型经常做出了错误的预测,那么它的困惑度就会随之而来。

一个序列的联合概率取决于其长度,并且随着长度的增长,其值趋近于零,这使得困惑度变得难以追踪。在观察上,我们希望对每个词标记(token)的概率 p ( x i ∣ x 1 : i − 1 ) p(x_{i}∣x_{1:i−1}) p(xi∣x1:i−1)进行平均。这里的 p(xi∣x1:i−1) 表示给定之前的词序列 x 1 : i − 1 x_{1:i−1} x1:i−1后,下一个词 x i x_{i} xi出现的概率。这样做的目的是评估模型在处理各种词标记时的平均性能。

总结

增加模型的大小和示例的数量都有助于提高性能。

有一些启发式的方法可以使语言模型适应感兴趣的任务。

但为什么会有这样的表现,没有人知道。

相关推荐
天天向上杰15 分钟前
通义灵码AI程序员
人工智能·aigc·ai编程
sendnews26 分钟前
AI赋能教育,小猿搜题系列产品携手DeepSeek打造个性化学习新体验
人工智能
紫雾凌寒38 分钟前
解锁机器学习核心算法|神经网络:AI 领域的 “超级引擎”
人工智能·python·神经网络·算法·机器学习·卷积神经网络
WBingJ1 小时前
2月17日深度学习日记
人工智能
zhengyawen6661 小时前
深度学习之图像分类(一)
人工智能·深度学习·分类
莫莫莫i1 小时前
拆解微软CEO纳德拉战略蓝图:AI、量子计算、游戏革命如何改写未来规则!
人工智能·微软·量子计算
C#Thread1 小时前
机器视觉--图像的运算(加法)
图像处理·人工智能·计算机视觉
无极工作室(网络安全)1 小时前
机器学习小项目之鸢尾花分类
人工智能·机器学习·分类
涛涛讲AI1 小时前
文心一言大模型的“三级跳”:从收费到免费再到开源,一场AI生态的重构实验
人工智能·百度·大模型·deepseek
视觉人机器视觉1 小时前
机器视觉中的3D高反光工件检测
人工智能·3d·c#·视觉检测