预训练语言模型(笔记)

笔记来源: Transformer、GPT、BERT,预训练语言模型的前世今生(目录) - B站-水论文的程序猿 - 博客园

预训练语言模型的发展并不是一蹴而就的,而是伴随着诸如词嵌入、序列到序列模型及 Attention 的发展而产生的。

一、从图像领域引入预训练思想

假设我们现在有一个任务:阿猫、阿狗、阿虎的图片各十张,然后让我们设计一个深度神经网络,通过该网络把它们三者的图片进行分类。

然而用30张图片设计一个深度神经网络基本是不可能的,因为深度学习一个弱项就是在训练阶段对于数据量的需求特别大。 但是我们可以利用网上现有的大量已做好分类标注的图片 。比如 ImageNet 中有 1400 万张图片,并且这些图片都已经做好了分类标注。

上述利用网络上现有图片的思想就是预训练的思想,具体做法就是:

  1. 通过 ImageNet 数据集我们训练出一个模型A
  2. 我们可以对模型 A 做出一部分改进得到模型 B(两种方法):
    1. 冻结:浅层参数使用模型 A 的参数,高层参数随机初始化,浅层参数一直不变,然后利用 30 张图片训练参数
    2. 微调:浅层参数使用模型 A 的参数,高层参数随机初始化,然后利用30 张图片训练参数,但是在这里浅层参数会随着任务的训练不断发生变化

预训练思想总结

对于一个具有少量数据的任务 A,我们可以先利用现有的大量数据搭建一个模型 A,再搭建一个模型B,模型B利用模型A的参数初始化后再用任务A的少量数据训练。模型B就是对应任务A的模型。

二、语言模型

语言模型通俗点讲就是**计算一个句子的概率。**也就是说,对于语言序列 𝑤1,𝑤2,⋯,𝑤𝑛,语言模型就是计算该序列的概率,即 𝑃(𝑤1,𝑤2,⋯,𝑤𝑛)。

下面通过两个实例具体了解上述所描述的意思:

  1. 假设给定两句话 "判断这个词的磁性" 和 "判断这个词的词性",语言模型会认为后者更自然。转化成数学语言也就是:𝑃(判断,这个,词,的,词性)>𝑃(判断,这个,词,的,磁性)
  2. 假设给定一句话做填空 "判断这个词的____",则问题就变成了给定前面的词,找出后面的一个词是什么,转化成数学语言就是:𝑃(词性|判断,这个,词,的)>𝑃(磁性|判断,这个,词,的)

通过上述两个实例,可以给出语言模型更加具体的描述:

1.给定一句由 𝑛 个词组成的句子 𝑊=𝑤1,𝑤2,⋯,𝑤𝑛,计算这个句子的概率 𝑃(𝑤1,𝑤2,⋯,𝑤𝑛)

2.计算根据上文计算下一个词的概率 𝑃(𝑤𝑛|𝑤1,𝑤2,⋯,𝑤𝑛−1)。

语言模型有两个分支,分别是统计语言模型和神经网络语言模型。

2.1统计语言模型

1.计算句子概率的公式:P(w1,w2,⋯,wn)=P(w1)P(w2|w1)P(w3|w1,w2)⋯p(wn|w1,w2,⋯,wn−1)=∏iP(wi|w1,w2,⋯,wi−1)

2.对于第二个问题可以用二元语言模型计算更简便。

二元语言模型的使用举例:

2.2 神经网络语言模型

神经网络语言模型则引入神经网络架构来估计单词的分布,并且通过词向量的距离衡量单词之间的相似度,因此,对于未登录单词,也可以通过相似词进行估计,进而避免出现数据稀疏问题

相关推荐
Scc_hy6 分钟前
强化学习_Paper_1988_Learning to predict by the methods of temporal differences
人工智能·深度学习·算法
袁煦丞9 分钟前
【亲测】1.5万搞定DeepSeek满血版!本地部署避坑指南+内网穿透黑科技揭秘
人工智能·程序员·远程工作
大模型真好玩10 分钟前
理论+代码一文带你深入浅出MCP:人工智能大模型与外部世界交互的革命性突破
人工智能·python·mcp
遇码24 分钟前
大语言模型开发框架——LangChain
人工智能·语言模型·langchain·llm·大模型开发·智能体
在狂风暴雨中奔跑24 分钟前
使用AI开发Android界面
android·人工智能
飞哥数智坊26 分钟前
AI编程实战:30分钟实现Web 3D船舶航行效果
人工智能·three.js
誉鏐29 分钟前
从零开始设计Transformer模型(1/2)——剥离RNN,保留Attention
人工智能·深度学习·transformer
Ai野生菌30 分钟前
工具介绍 | SafeLLMDeploy教程来了 保护本地LLM安全部署
网络·人工智能·安全·大模型·llm
契合qht53_shine36 分钟前
OpenCV 从入门到精通(day_05)
人工智能·opencv·计算机视觉
3DVisionary43 分钟前
3D-DIC与机器学习协同模拟材料应力-应变本构行为研究
人工智能·机器学习·3d·3d-dic技术 机器学习·应力-应变本构行为·卷积神经网络(ecnn)·数字图像相关法(dic)