自然语言处理阅读第一弹

Transformer架构

Embeddings from Language Model (ELMO)

Bidirectional Encoder Representations from Transformers (BERT)

  • BERT就是原生transformer中的Encoder

  • 两个学习任务:MLM和NSP

    • Masked Language Model:将输入句子中的某些token随机替换为[MASK],然后基于上下文预测这些被替换的token。学习局部语义和上下文依赖关系。这有助于BERT理解每个词的表达。

    • Next Sentence Prediction:给定一对句子A和B,判断B是否是A的下一句。这可以学习句子之间的关系,捕获上下文信息,有助于BERT在文档层面上理解语言。

  • 李宏毅BERT

  • BERT

Enhanced Representation through Knowledge Integration (ERNIE)

  • ERNIE提出了Knowledge Masking的策略,ERNIE将Knowledge分成了三个类别:token级别(Basic-Level)、短语级别(Phrase-Level) 和 实体级别(Entity-Level)。通过对这三个级别的对象进行Masking,提高模型对字词、短语的知识理解。
  • 预训练模型ERINE
  • ERINE的改进

Generative Pre-Training (GPT)

  • GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention。

  • GPT

  • GPT阅读

相关推荐
罗西的思考22 分钟前
[2W字长文] 探秘Transformer系列之(23)--- 长度外推
人工智能·算法
小杨4042 小时前
python入门系列十四(多进程)
人工智能·python·pycharm
阿坡RPA16 小时前
手搓MCP客户端&服务端:从零到实战极速了解MCP是什么?
人工智能·aigc
用户277844910499317 小时前
借助DeepSeek智能生成测试用例:从提示词到Excel表格的全流程实践
人工智能·python
机器之心17 小时前
刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?
人工智能
算AI19 小时前
人工智能+牙科:临床应用中的几个问题
人工智能·算法
凯子坚持 c20 小时前
基于飞桨框架3.0本地DeepSeek-R1蒸馏版部署实战
人工智能·paddlepaddle
你觉得20520 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清20 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
hyshhhh21 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉