[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

RNN存在信息瓶颈的问题。

注意力机制的核心就是在decoder的每一步,都把encoder的所有向量提供给decoder模型。

具体的例子

先获得encoder隐向量的一个注意力分数。

注意力机制的各种变体

一:直接点积

二:中间乘以一个矩阵

三:Additive attention:使用一层前馈神经网络来获得注意力分数

...

Transformer概述

输入层

BPE(Byte Pair Encoding)

BPE提出主要是为了解决OOV的问题:会出现一些在词表中没有出现过的词。

位置编码Positional Encoding

Transformer Block

attention层

不进行scale,则方差会很大。则经过softmax后,有些部分会很尖锐,接近1。

多头注意力机制

Transformer Decoder Block

mask保证了文本生成是顺序生成的。

其他Tricks

Transformer的优缺点

缺点:模型对参数敏感,优化困难;处理文本复杂度是文本长度的平方数量级。

预训练语言模型PLM

预训练语言模型学习到的知识可以非常容易地迁移到下游任务。

word2vec是第一个预训练语言模型。现在绝大多数语言模型都是基于Transformer了,如Bert。

PLMs的两种范式

1.feature提取器:预训练好模型后,feature固定。典型的如word2vec和Elmo

2.对整个模型的参数进行更新

GPT


BERT

不同于GPT,BERT是双向的预训练模型。使用的是基于Mask的数据。

它的最主要的预训练任务是预测mask词。

还有一个是预测下一个句子。


PLMs after BERT

BERT的问题:

尽管BERT采用了一些策略,使mask可能替换成其他词或正确词。但是这并没有解决mask没有出现在下游任务。

预训练效率低。

窗口大小受限。

相关改进工作

RoBERTa指出bert并没有完全训练。它可以被训练得更加鲁棒。

MLM任务的应用

跨语言对齐

跨模态对齐

PLM前沿

GPT3


T5

统一所有NLP任务为seq to seq的形式

MoE

每次模型调用部分子模块来处理。涉及调度,负载均衡。

Transformers教程

介绍

使用Transformers的Pipeline

Tokenization

常用API


相关推荐
冻伤小鱼干5 分钟前
《自动驾驶与机器人中的slam技术:从理论到实践》笔记——ch7(2)
笔记·机器人·自动驾驶
山土成旧客5 分钟前
【Python学习打卡-Day33】你好,PyTorch!从“自动挡”到“手动挡”的深度学习之旅
python·深度学习·学习
强子感冒了15 分钟前
Java集合框架深度学习:从Iterable到ArrayList的完整继承体系
java·笔记·学习
来不及辣哎呀27 分钟前
学习Java第六十二天——Hot 100-09-438. 找到字符串中所有字母异位词
java·开发语言·学习
鸿途优学-UU教育1 小时前
2025搜狐教育年度盛典|UU教育CEO彭普杰:成人学习不止于知识传递,科技赋能背后更需温度守护
科技·学习
冻伤小鱼干1 小时前
《自动驾驶与机器人中的slam技术:从理论到实践》笔记——ch7(4)
笔记·机器人·自动驾驶
后端小张1 小时前
【TextIn大模型加速器 + 火山引擎】TextIn大模型加速器与火山引擎协同构建智能文档处理新范式
人工智能·学习·数据挖掘·langchain·tensorflow·gpt-3·火山引擎
深度学习实战训练营1 小时前
结合 Swin Transformer 与 LSTM 的残差自回归模型,用于高精度光学波前时序预测与相位重建
回归·lstm·transformer
灯前目力虽非昔,犹课蝇头二万言。1 小时前
HarmonyOS笔记12:生命周期
笔记·华为·harmonyos
yuhaiqun19891 小时前
发现前端性能瓶颈的巧妙方法:建立“现象归因→分析定位→优化验证”的闭环思维
前端·经验分享·笔记·python·学习·课程设计·学习方法