【LLM】预训练||两句话明白儿的底层原理

预训练鼻祖阶段:目前认为是Bert时期

从字面上看,预训练模型(pre-training model)是先通过一批语料进行训练模型,然后在这个初步训练好的模型基础上,再继续训练或者另作他用。这样的理解基本上是对的,预训练模型的训练和使用分别对应两个阶段:预训练阶段(pre-training)和 微调(fune-tuning)阶段。

预训练阶段一般会在超大规模的语料上,采用无监督(unsupervised)或者弱监督(weak-supervised)的方式训练模型,期望模型能够获得语言相关的知识,比如句法,语法知识等等。经过超大规模语料的"洗礼",预训练模型往往会是一个Super模型,一方面体现在它具备足够多的语言知识,一方面是因为它的参数规模很大。

微调阶段是利用预训练好的模型,去定制化地训练某些任务,使得预训练模型"更懂"这个任务。例如,利用预训练好的模型继续训练文本分类任务,将会获得比较好的一个分类结果,直观地想,预训练模型已经懂得了语言的知识,在这些知识基础上去学习文本分类任务将会事半功倍。利用预训练模型去微调的一些任务(例如前述文本分类)被称为下游任务(down-stream)。

以BERT为例,BERT是在海量数据中进行训练的,预训练阶段包含两个任务:MLM(Masked Language Model)和NSP (Next Sentence Prediction)。前者类似"完形填空"(Cloze),在一句中扣出一个单词,然后利用这句话的其他单词去预测被扣出的这个单词;后者是给定两句话,判断这两句话在原文中是否是相邻的关系。

BERT预训练完成之后,后边可以接入多种类型的下游任务,例如文本分类,序列标注,阅读理解等等,通过在这些任务上进行微调,可以获得比较好的实验结果。

MLM和NSP看了下面两篇博客基本是能够理解大概原理了

Bert预训练-CSDN博客https://blog.csdn.net/KK_1657654189/article/details/122204640

这篇博客图文并茂~⭐⭐⭐⭐⭐

BERT预训练的任务MLM和NSP - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/562352255

这篇博客讲得简洁~ ⭐⭐⭐


总结:

预测遮挡单词**(MLM)** 是一个多分类 问题

预测下一个句子**(NSP)** 是一个二分类 问题
合并任务 的目标函数就是两个任务目标函数之和

采用梯度下降方法更新合并任务模型参数


一张图整明白 MLM与NSP //我自己整理的版本,知识的搬运工,hh

① 一张图明白MLM(本质多分类问题

具体过程:

假如现在我们遮挡住了cat这个单词

那么我们会用mask标记这个被遮挡的单词,紧接着它就会被embedding层标记为Xm向量,输出记为Um向量,我们知道,Transformer的映射是多对一,所以Um向量会依赖所有的X向量,也就是说它会知道整句话的内容,那么就可以用它来预测被遮挡的单词是什么,将这个Um作为特征向量送入softmax分类器输出一个概率分布p,根据这个p值来判断被遮挡的词是什么。

这里,我们的希望的p值是越接近mask的one-hot编码越好

我们将被遮挡单词的ont-hot向量记为e,将CrossEntropy(e,p)作为损失函数,用反向传播算出损失函数关于模型的梯度,然后作梯度下降来更新模型参数,bert预训练不需要人工标注数据,它用被遮挡的单词作为标签,可以自动生成标签,这样训练数据就可以想要多少就有多少,从而训练出一个很大的模型。

② 一张图明白NSP(本质二分类问题

一个样本的两个句子用[SEP]隔开,第一个句子的句首加上[CLS],第二个句子的句尾加上[SEP]。

样本一:[CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP],

标签:IsNext。

样本二:[CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP],

标签:NotNext。

向量C虽然在CLS的位置上,但它包含的是输入的两句话的全部信息,把C作为特征向量输入分类器Binary,得到一个介于0-1之间的值f,其中,1是代表两句话true,0代表两句话毫无关联,依旧用将CrossEntropy(e,f)作为损失函数,用反向传播算出损失函数关于模型的梯度,然后作梯度下降来更新模型参数。

这样作预训练是因为:

相邻的两句话通常有关联,这样作二分类可以强化这种关联,让embedding层包含这种关联,而且encoder层中的self-attention层的作用恰好就是找相关性

bert将上述所讲的这两种任务结合起来训练Transformer,假如有两个单词被遮挡,就需要三个任务,也就是说三个损失函数,第一个损失函数是二分类(判断标签是true还是false),第二三个损失函数就是预测这两个单词,目标函数就是三个损失函数的加和,用反向传播算出损失函数关于模型的梯度,然后作梯度下降来更新模型参数

Reference //这些链接最多花1h...,值得值得

语言模型BERT理解_bert语义理解_AI 菌的博客-CSDN博客

NLP预训练系列之一:预训练发展概述(上) - 知乎 (zhihu.com)

理解NLP中的屏蔽语言模型(MLM)和因果语言模型(CLM)_mlm模型-CSDN客

相关推荐
陈广亮8 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬8 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia9 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区9 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两12 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪12 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat2325512 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源
王鑫星12 小时前
SWE-bench 首次突破 80%:Claude Opus 4.5 发布,Anthropic 的野心不止于写代码
人工智能
lnix12 小时前
当“大龙虾”养在本地:我们离“反SaaS”的AI未来还有多远?
人工智能·aigc