[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

N刻后告诉你2024-01-22 23:12

RNN存在信息瓶颈的问题。

注意力机制的核心就是在decoder的每一步，都把encoder的所有向量提供给decoder模型。

具体的例子

先获得encoder隐向量的一个注意力分数。

注意力机制的各种变体

一：直接点积

二：中间乘以一个矩阵

三：Additive attention：使用一层前馈神经网络来获得注意力分数

...

Transformer概述

输入层

BPE（Byte Pair Encoding)

BPE提出主要是为了解决OOV的问题：会出现一些在词表中没有出现过的词。

位置编码Positional Encoding

Transformer Block

attention层

不进行scale，则方差会很大。则经过softmax后，有些部分会很尖锐，接近1。

多头注意力机制

Transformer Decoder Block

mask保证了文本生成是顺序生成的。

其他Tricks

Transformer的优缺点

缺点：模型对参数敏感，优化困难；处理文本复杂度是文本长度的平方数量级。

预训练语言模型PLM

预训练语言模型学习到的知识可以非常容易地迁移到下游任务。

word2vec是第一个预训练语言模型。现在绝大多数语言模型都是基于Transformer了，如Bert。

PLMs的两种范式

1.feature提取器：预训练好模型后，feature固定。典型的如word2vec和Elmo

2.对整个模型的参数进行更新

GPT

BERT

不同于GPT，BERT是双向的预训练模型。使用的是基于Mask的数据。

它的最主要的预训练任务是预测mask词。

还有一个是预测下一个句子。

PLMs after BERT

BERT的问题：

尽管BERT采用了一些策略，使mask可能替换成其他词或正确词。但是这并没有解决mask没有出现在下游任务。

预训练效率低。

窗口大小受限。

相关改进工作

RoBERTa指出bert并没有完全训练。它可以被训练得更加鲁棒。

MLM任务的应用

跨语言对齐

跨模态对齐

PLM前沿

GPT3

T5

统一所有NLP任务为seq to seq的形式

MoE

每次模型调用部分子模块来处理。涉及调度，负载均衡。

Transformers教程

介绍

使用Transformers的Pipeline

Tokenization

常用API

上一篇：P1102 A-B 数对

下一篇：黑马苍穹外卖学习Day10

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）072025最新国内服务器可用docker源仓库地址大全（2025年8月更新）08阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！09NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 10TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践