自然语言处理阅读第一弹

u0133087092023-12-16 9:11

Transformer架构

encoder和decoder区别

Embeddings from Language Model (ELMO)

一种基于上下文的预训练模型,用于生成具有语境的词向量。
原理讲解
ELMO中的几个问题

Bidirectional Encoder Representations from Transformers (BERT)

BERT就是原生transformer中的Encoder
两个学习任务：MLM和NSP
- Masked Language Model:将输入句子中的某些token随机替换为[MASK],然后基于上下文预测这些被替换的token。学习局部语义和上下文依赖关系。这有助于BERT理解每个词的表达。
- Next Sentence Prediction:给定一对句子A和B,判断B是否是A的下一句。这可以学习句子之间的关系,捕获上下文信息，有助于BERT在文档层面上理解语言。
李宏毅BERT
BERT

Enhanced Representation through Knowledge Integration (ERNIE)

ERNIE提出了Knowledge Masking的策略，ERNIE将Knowledge分成了三个类别：token级别(Basic-Level)、短语级别(Phrase-Level) 和实体级别(Entity-Level)。通过对这三个级别的对象进行Masking，提高模型对字词、短语的知识理解。
预训练模型ERINE
ERINE的改进

Generative Pre-Training (GPT)

GPT 使用 Transformer 的 Decoder 结构，并对 Transformer Decoder 进行了一些改动，原本的 Decoder 包含了两个 Multi-Head Attention 结构，GPT 只保留了 Mask Multi-Head Attention。
GPT
GPT阅读

上一篇：DStruct: 静态内存分配器(SMA) 设计与实现1 - 简单分配器

下一篇：VR播控系统深耕VR教学领域，助力开启未来新课堂

热门推荐

01今天 Cloudflare 全球事故，连 GPT 和你的网站都一起“掉线”了 02GitHub 镜像站点 03UV安装并设置国内源 04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05BongoCat - 跨平台键盘猫动画工具 06Linux下V2Ray安装配置指南 07swagger xss漏洞复现 08Valdi：Snapchat 开源的新一代跨平台 UI 框架 09Labelme从安装到标注：零基础完整指南 10全球最强模型Grok4，国内已可免费使用！（附教程）