大语言模型--能力

能力

大语言模型


从语言模型到任务模型的转化

在自然语言处理的世界中,语言模型 p p p是一种对代币序列 x 1 : L x_{1:L} x1:L这样的模型能够用于评估序列,例如 p ( t h e , m o u s e , a t e , t h e , c h e e s e ) p(the,mouse,ate,the,cheese) p(the,mouse,ate,the,cheese)同样,它还可以用于在给定提示的条件下生成的序列,如 the mouse ate ⇝ the cheese \text{the mouse ate}⇝\text{the cheese} the mouse ate⇝the cheese。

我们使用"适应(Adaptation)"来指代将语言模型转化为任务模型的过程。这个过程需要以下两个输入:

  • 任务的自然语言描述
  • 一组实例训练(输入-输出对)

我们主要有两种方式来进行这种适应:

  • 训练(标准的有监督学习):训练一个新模型,生成能够将输入映射到输出。这可以通过创建一个新模型并利用语言模型作为特征(标记法),或者从现有的语言模型出发,根据实例训练进行更新(配置),或者在这两者之间找到平衡(轻量级的配置)。以上内容将在第十一章进行学习(大模型之适配)。
  • 提示(上下文描述)学习:根据对任务的建一个或一组提示/上下文信息,将其输入到语言模型中以获取基于该任务的生成结果。

语言建模

在语言自然处理(NLP)领域,除了研究大型语言模型,我们还需要深入探讨一些基础任务。比如,我们要对GPT-3的各种功能有研究的认知,并真正理解如何优化给定模型的提示(当前仅通过基于提出的信息就可获得性能的提示已经成为了认知)。这些都是语言模型研究的核心部分。最深入的方法是验证语言模型是否能够有效地模仿和理解语言。

困惑度(Perplexity)是一个重要的指标,是自然语言处理和语言模型中的一个重要概念,用于简化语言模型的性能。它可以解释模型在预测下一个词时的平均不确定性。也就是说,如果一个模型的困惑度较低,那么它在预测下一个词的时候就会更加准确。对于给定的语言模型和一个测试数据集,困惑度被定义为:

P ( X ) = P ( x 1 , x 2 , . . . , x N ) ( − 1 / N ) P(X) = P(x_1,x_2,...,x_N)^{(-1/N)} P(X)=P(x1,x2,...,xN)(−1/N)

其中, X = x 1 , x 2 , . . . , x N X=x_{1},x_{2},...,x_{N} X=x1,x2,...,xN是集中测试的词序列, N N N是测试集中的总词数。困惑度与语言模型的质量紧密相关。一个优秀的语言模型能够准确预测测试数据中的词序列,因此它的困惑度应该更低。相反,如果语言模型经常做出了错误的预测,那么它的困惑度就会随之而来。

一个序列的联合概率取决于其长度,并且随着长度的增长,其值趋近于零,这使得困惑度变得难以追踪。在观察上,我们希望对每个词标记(token)的概率 p ( x i ∣ x 1 : i − 1 ) p(x_{i}∣x_{1:i−1}) p(xi∣x1:i−1)进行平均。这里的 p(xi∣x1:i−1) 表示给定之前的词序列 x 1 : i − 1 x_{1:i−1} x1:i−1后,下一个词 x i x_{i} xi出现的概率。这样做的目的是评估模型在处理各种词标记时的平均性能。

总结

增加模型的大小和示例的数量都有助于提高性能。

有一些启发式的方法可以使语言模型适应感兴趣的任务。

但为什么会有这样的表现,没有人知道。

相关推荐
Kusunoki_D6 分钟前
PyTorch 环境配置
人工智能·pytorch·python
金融Tech趋势派15 分钟前
企业微信+AI在金融行业落地:从部署到场景的实践路径
人工智能·金融·企业微信
ALLSectorSorft18 分钟前
搭子交友 app 动态分享与打卡系统设计实现
java·服务器·数据库·人工智能·oracle·交友
舒一笑1 小时前
Building effective agents 建立有效的agents
人工智能
凉冰不加冰1 小时前
大语言模型原理(Transformer架构)
语言模型
知秋丶1 小时前
大模型应用发展与Agent前沿技术趋势(下)
人工智能·python·ai agent
智驱力人工智能1 小时前
安全帽检测算法如何提升工地安全管理效率
人工智能·算法·安全·边缘计算·安全帽检测·口罩检测·安全鞋检测
即兴小索奇1 小时前
AI适老服务暖人心:AI适老机顶盒破数字鸿沟、毫米波雷达护独居安全,银发生活新保障
人工智能·ai·语音识别·商业·ai商业洞察·即兴小索奇
riveting2 小时前
技术突破引领应用革新:RK3506 开发板的嵌入式革命
人工智能·物联网·制造·明远智睿·rk3506
Lntano__y2 小时前
详细分析大语言模型attention的计算复杂度,从数学角度分析
人工智能·语言模型·自然语言处理