【LLM学习】2-简短学习BERT、GPT主流大模型

  • 阅读《Attention is All You Need》论文,理解自注意力机制和多头注意力。
  • 学习BERT、GPT等主流LLM的预训练和微调流程。
  • 资源:Hugging Face文档(Hugging Face Transformers)。

一、《Attention is all you need》略读学习

17年NeurIPS的文章[1706.03762] Attention Is All You Need,提出了Transformer。重点可以学习自注意力机制和多头注意力。

1.1研究背景

  • 问题: 传统序列模型(如RNN、LSTM)在处理长序列时存在计算效率低和长距离依赖建模困难的问题。
  • 目标: 提出一种完全基于注意力机制(Attention)的模型,取代循环神经网络(RNN),提升性能和并行性。
  • 贡献: 引入Transformer架构,成为NLP领域的里程碑。

1.2Transformer架构

之前文章有写,这里简单回顾以下其结构:

  • 编码器(Encoder) : 由N个相同层组成,每层包含:
    • 多头自注意力机制(Multi-Head Self-Attention)。
    • 前馈神经网络(Feed-Forward Network, FFN)。
    • 残差连接(Residual Connection)和层归一化(Layer Normalization)。
  • 解码器(Decoder): 类似编码器,但增加一个多头注意力层,用于关注编码器的输出。

1.3自注意力机制(Self-attention)*

  • 定义: 输入序列中的每个词可以关注序列中所有其他词,而不是按顺序处理。
  • 计算 :
    • 使用查询(Query,Q)、键(Key, K)和值(Value,V)向量,通过公式计算注意力权重:
    • dk 是键的维度,根号下dk是为了防止数值过大。
  • 优势 :
    • 捕捉长距离依赖(如句子中远隔词的关系)。
    • 计算复杂度低于RNN,支持并行化。

1.4多头注意力(Multi-Head Attention)*

将注意力分成多个"头"(heads),每个头独立计算注意力,再拼接结果。公式就不写了,就是

多头(Q,K,V)=concat(head1......)

优点就是捕捉不同语义空间的依赖关系,从而提升模型表达能力。

另外,关于位置编码,为了解决Transformer无序列顺序信息问题,所以在输入嵌入中加入位置编码,表示词的位置。形式上是用到了三角函数。

综上,主要是三个优势:并行化、长距离依赖、可拓展性

二、BERT和GPT

两者都是基于Transformer,经常会提问区别(保研面试、求职实习面试等),这里简单说下两者区别:

|----------|----------|----------|------------|
| 模型 | 架构 | 训练方式 | 应用 |
| BERT | 仅Encoder | 双向预训练 | 文本分类、问答等 |
| GPT | 仅Decoder | 自回归预训练 | 文本生成、对话系统等 |

2.1 BERT 预训练 & 微调流程

预训练阶段:

  • 使用大量未标注文本进行两个任务:
    • Masked Language Model(MLM):随机遮蔽部分词,预测被遮的词;
    • Next Sentence Prediction(NSP):判断两句话是否连续。
  • 目标是让模型学习通用的语言表示。

微调阶段:

  • 在预训练模型基础上,针对具体任务(如分类、问答)调整参数;
  • 输入格式根据任务设计(如加一个[CLS]标签用于分类);
  • 最后一层接上任务相关的输出层,进行端到端训练。

2.2 GPT 预训练 & 微调流程

预训练阶段:

  • 使用大量未标注文本,进行自回归语言建模
    • 根据前面的词预测下一个词;
    • 使用Transformer Decoder结构,只能看到前面的上下文。
  • 学习强大的语言生成能力。

微调阶段:

  • 在特定任务(如文本生成、对话)数据上继续训练;
  • 输入任务描述 + 示例,模型自动完成后续内容;
  • 不需要大幅修改网络结构,直接适配下游生成任务。
相关推荐
果粒橙_LGC43 分钟前
论文阅读系列(一)Qwen-Image Technical Report
论文阅读·人工智能·学习
yiqiqukanhaiba3 小时前
STM32学习笔记13-通信协议I2C&MPU6050&I2C软件控制
笔记·stm32·学习
Warren983 小时前
软件测试-Selenium学习笔记
java·javascript·笔记·学习·selenium·测试工具·安全
在路上`5 小时前
前端学习之后端小白java的一些理论知识(框架)
java·学习
练习时长两年半的Java练习生(升级中)5 小时前
从0开始学习Java+AI知识点总结-18.web基础知识(Java操作数据库)
java·学习·web
Jayyih5 小时前
嵌入式系统学习Day19(数据结构)
数据结构·学习
xy_recording6 小时前
Day08 Go语言学习
开发语言·学习·golang
PythonPioneer6 小时前
颠覆性进化:OpenAI正式发布GPT-5,AI大模型进入“超级智能”时代
人工智能·gpt
唐天下文化6 小时前
bit-Agent正式接入GPT-5,九科信息智能体能力再升级!
人工智能·gpt
黑客影儿7 小时前
黑客哲学之学习笔记系列(三)
笔记·学习·程序人生·安全·职场和发展·网络攻击模型·学习方法