预训练语言模型(笔记)

笔记来源: Transformer、GPT、BERT,预训练语言模型的前世今生(目录) - B站-水论文的程序猿 - 博客园

预训练语言模型的发展并不是一蹴而就的,而是伴随着诸如词嵌入、序列到序列模型及 Attention 的发展而产生的。

一、从图像领域引入预训练思想

假设我们现在有一个任务:阿猫、阿狗、阿虎的图片各十张,然后让我们设计一个深度神经网络,通过该网络把它们三者的图片进行分类。

然而用30张图片设计一个深度神经网络基本是不可能的,因为深度学习一个弱项就是在训练阶段对于数据量的需求特别大。 但是我们可以利用网上现有的大量已做好分类标注的图片 。比如 ImageNet 中有 1400 万张图片,并且这些图片都已经做好了分类标注。

上述利用网络上现有图片的思想就是预训练的思想,具体做法就是:

  1. 通过 ImageNet 数据集我们训练出一个模型A
  2. 我们可以对模型 A 做出一部分改进得到模型 B(两种方法):
    1. 冻结:浅层参数使用模型 A 的参数,高层参数随机初始化,浅层参数一直不变,然后利用 30 张图片训练参数
    2. 微调:浅层参数使用模型 A 的参数,高层参数随机初始化,然后利用30 张图片训练参数,但是在这里浅层参数会随着任务的训练不断发生变化

预训练思想总结

对于一个具有少量数据的任务 A,我们可以先利用现有的大量数据搭建一个模型 A,再搭建一个模型B,模型B利用模型A的参数初始化后再用任务A的少量数据训练。模型B就是对应任务A的模型。

二、语言模型

语言模型通俗点讲就是**计算一个句子的概率。**也就是说,对于语言序列 𝑤1,𝑤2,⋯,𝑤𝑛,语言模型就是计算该序列的概率,即 𝑃(𝑤1,𝑤2,⋯,𝑤𝑛)。

下面通过两个实例具体了解上述所描述的意思:

  1. 假设给定两句话 "判断这个词的磁性" 和 "判断这个词的词性",语言模型会认为后者更自然。转化成数学语言也就是:𝑃(判断,这个,词,的,词性)>𝑃(判断,这个,词,的,磁性)
  2. 假设给定一句话做填空 "判断这个词的____",则问题就变成了给定前面的词,找出后面的一个词是什么,转化成数学语言就是:𝑃(词性|判断,这个,词,的)>𝑃(磁性|判断,这个,词,的)

通过上述两个实例,可以给出语言模型更加具体的描述:

1.给定一句由 𝑛 个词组成的句子 𝑊=𝑤1,𝑤2,⋯,𝑤𝑛,计算这个句子的概率 𝑃(𝑤1,𝑤2,⋯,𝑤𝑛)

2.计算根据上文计算下一个词的概率 𝑃(𝑤𝑛|𝑤1,𝑤2,⋯,𝑤𝑛−1)。

语言模型有两个分支,分别是统计语言模型和神经网络语言模型。

2.1统计语言模型

1.计算句子概率的公式:P(w1,w2,⋯,wn)=P(w1)P(w2|w1)P(w3|w1,w2)⋯p(wn|w1,w2,⋯,wn−1)=∏iP(wi|w1,w2,⋯,wi−1)

2.对于第二个问题可以用二元语言模型计算更简便。

二元语言模型的使用举例:

2.2 神经网络语言模型

神经网络语言模型则引入神经网络架构来估计单词的分布,并且通过词向量的距离衡量单词之间的相似度,因此,对于未登录单词,也可以通过相似词进行估计,进而避免出现数据稀疏问题

相关推荐
机器之心11 分钟前
Generalist之后,罗剑岚团队推出LWD,也要变革具身智能训练范式
人工智能·openai
IT_陈寒16 分钟前
Vite的public文件夹放静态资源?这坑我替你踩了
前端·人工智能·后端
传说故事16 分钟前
【论文阅读】Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
论文阅读·人工智能·diffusion
xixixi7777720 分钟前
三重筑基:5G-A超级上行提速千兆,电联低频共享扫平盲点,800V HVDC算电协同破局
人工智能·5g·ai·大模型·算力·通信·信通院
jkyy201421 分钟前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹29 分钟前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_9499251834 分钟前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
AI木马人41 分钟前
1.人工智能实战:大模型推理接口响应慢?从模型加载到 FastAPI 部署的完整优化方案
人工智能·python·fastapi
Black蜡笔小新1 小时前
私有化本地化AI模型训推工作站DLTM训推一体工作站赋能多行业智能化落地
人工智能
qq_411262421 小时前
四博 AI 智能音箱 + ESPC3 Tasmota 计量通断器方案
人工智能·智能音箱