自然语言处理阅读第一弹

Transformer架构

Embeddings from Language Model (ELMO)

Bidirectional Encoder Representations from Transformers (BERT)

  • BERT就是原生transformer中的Encoder

  • 两个学习任务:MLM和NSP

    • Masked Language Model:将输入句子中的某些token随机替换为[MASK],然后基于上下文预测这些被替换的token。学习局部语义和上下文依赖关系。这有助于BERT理解每个词的表达。

    • Next Sentence Prediction:给定一对句子A和B,判断B是否是A的下一句。这可以学习句子之间的关系,捕获上下文信息,有助于BERT在文档层面上理解语言。

  • 李宏毅BERT

  • BERT

Enhanced Representation through Knowledge Integration (ERNIE)

  • ERNIE提出了Knowledge Masking的策略,ERNIE将Knowledge分成了三个类别:token级别(Basic-Level)、短语级别(Phrase-Level) 和 实体级别(Entity-Level)。通过对这三个级别的对象进行Masking,提高模型对字词、短语的知识理解。
  • 预训练模型ERINE
  • ERINE的改进

Generative Pre-Training (GPT)

  • GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention。

  • GPT

  • GPT阅读

相关推荐
阿里云大数据AI技术3 分钟前
最强打工外挂:教你在PAI-EAS用CoPaw打造专属AI助理
人工智能·agent
~央千澈~4 分钟前
从核心本质问题讲:完全没有必要跟风去养“虾”
人工智能
恋猫de小郭5 分钟前
AI 时代的工程师需要具备什么能力?Augment Code 给出了他们的招聘标准
前端·人工智能·ai编程
胡摩西10 分钟前
毫米级精准定位如何实现机器人自动回充:技术原理与工程实现
人工智能·机器学习·机器人·slam·室内定位·agv·roomaps
高洁0115 分钟前
学习基于数字孪生的质量预测与控制
人工智能·python·深度学习·数据挖掘·transformer
上海蓝色星球17 分钟前
造价机器人CER V2.0正式上线!
大数据·人工智能·智慧城市·运维开发
CeshirenTester17 分钟前
2026春招规则彻底变了,应届生必须看懂这4个信号
人工智能
无心水18 分钟前
【OpenClaw:进阶开发】12、掌控每一个像素:OpenClaw + CDP 打造无界浏览器自动化
人工智能·cdp·openclaw·ai前沿·养龙虾·无界浏览器
飞升不如收破烂~27 分钟前
Transformer 架构:用「工厂流水线」讲透(无代码、纯人话)
人工智能·深度学习·transformer
八角Z28 分钟前
AI价值跃迁的核心:输出责任转移与新兴工种的精准重塑
大数据·人工智能·科技·机器学习·计算机视觉·服务发现