【LLM学习】2-简短学习BERT、GPT主流大模型

  • 阅读《Attention is All You Need》论文,理解自注意力机制和多头注意力。
  • 学习BERT、GPT等主流LLM的预训练和微调流程。
  • 资源:Hugging Face文档(Hugging Face Transformers)。

一、《Attention is all you need》略读学习

17年NeurIPS的文章[1706.03762] Attention Is All You Need,提出了Transformer。重点可以学习自注意力机制和多头注意力。

1.1研究背景

  • 问题: 传统序列模型(如RNN、LSTM)在处理长序列时存在计算效率低和长距离依赖建模困难的问题。
  • 目标: 提出一种完全基于注意力机制(Attention)的模型,取代循环神经网络(RNN),提升性能和并行性。
  • 贡献: 引入Transformer架构,成为NLP领域的里程碑。

1.2Transformer架构

之前文章有写,这里简单回顾以下其结构:

  • 编码器(Encoder) : 由N个相同层组成,每层包含:
    • 多头自注意力机制(Multi-Head Self-Attention)。
    • 前馈神经网络(Feed-Forward Network, FFN)。
    • 残差连接(Residual Connection)和层归一化(Layer Normalization)。
  • 解码器(Decoder): 类似编码器,但增加一个多头注意力层,用于关注编码器的输出。

1.3自注意力机制(Self-attention)*

  • 定义: 输入序列中的每个词可以关注序列中所有其他词,而不是按顺序处理。
  • 计算 :
    • 使用查询(Query,Q)、键(Key, K)和值(Value,V)向量,通过公式计算注意力权重:
    • dk 是键的维度,根号下dk是为了防止数值过大。
  • 优势 :
    • 捕捉长距离依赖(如句子中远隔词的关系)。
    • 计算复杂度低于RNN,支持并行化。

1.4多头注意力(Multi-Head Attention)*

将注意力分成多个"头"(heads),每个头独立计算注意力,再拼接结果。公式就不写了,就是

多头(Q,K,V)=concat(head1......)

优点就是捕捉不同语义空间的依赖关系,从而提升模型表达能力。

另外,关于位置编码,为了解决Transformer无序列顺序信息问题,所以在输入嵌入中加入位置编码,表示词的位置。形式上是用到了三角函数。

综上,主要是三个优势:并行化、长距离依赖、可拓展性

二、BERT和GPT

两者都是基于Transformer,经常会提问区别(保研面试、求职实习面试等),这里简单说下两者区别:

|----------|----------|----------|------------|
| 模型 | 架构 | 训练方式 | 应用 |
| BERT | 仅Encoder | 双向预训练 | 文本分类、问答等 |
| GPT | 仅Decoder | 自回归预训练 | 文本生成、对话系统等 |

2.1 BERT 预训练 & 微调流程

预训练阶段:

  • 使用大量未标注文本进行两个任务:
    • Masked Language Model(MLM):随机遮蔽部分词,预测被遮的词;
    • Next Sentence Prediction(NSP):判断两句话是否连续。
  • 目标是让模型学习通用的语言表示。

微调阶段:

  • 在预训练模型基础上,针对具体任务(如分类、问答)调整参数;
  • 输入格式根据任务设计(如加一个[CLS]标签用于分类);
  • 最后一层接上任务相关的输出层,进行端到端训练。

2.2 GPT 预训练 & 微调流程

预训练阶段:

  • 使用大量未标注文本,进行自回归语言建模
    • 根据前面的词预测下一个词;
    • 使用Transformer Decoder结构,只能看到前面的上下文。
  • 学习强大的语言生成能力。

微调阶段:

  • 在特定任务(如文本生成、对话)数据上继续训练;
  • 输入任务描述 + 示例,模型自动完成后续内容;
  • 不需要大幅修改网络结构,直接适配下游生成任务。
相关推荐
im_AMBER1 小时前
学习日志19 python
python·学习
_Kayo_5 小时前
VUE2 学习笔记6 vue数据监测原理
vue.js·笔记·学习
chenchihwen5 小时前
大模型应用班-第2课 DeepSeek使用与提示词工程课程重点 学习ollama 安装 用deepseek-r1:1.5b 分析PDF 内容
人工智能·学习
超浪的晨6 小时前
Java UDP 通信详解:从基础到实战,彻底掌握无连接网络编程
java·开发语言·后端·学习·个人开发
悠哉悠哉愿意7 小时前
【电赛学习笔记】MaxiCAM 项目实践——与单片机的串口通信
笔记·python·单片机·嵌入式硬件·学习·视觉检测
快乐肚皮8 小时前
ZooKeeper学习专栏(五):Java客户端开发(原生API)详解
学习·zookeeper·java-zookeeper
慕y2748 小时前
Java学习第七十二部分——Zookeeper
java·学习·java-zookeeper
★YUI★9 小时前
学习游戏制作记录(剑投掷技能)7.26
学习·游戏·unity·c#
蓝桉8029 小时前
opencv学习(图像金字塔)
人工智能·opencv·学习
rannn_11110 小时前
Java学习|黑马笔记|Day23】网络编程、反射、动态代理
java·笔记·后端·学习