自然语言处理阅读第一弹

Transformer架构

Embeddings from Language Model (ELMO)

Bidirectional Encoder Representations from Transformers (BERT)

  • BERT就是原生transformer中的Encoder

  • 两个学习任务:MLM和NSP

    • Masked Language Model:将输入句子中的某些token随机替换为[MASK],然后基于上下文预测这些被替换的token。学习局部语义和上下文依赖关系。这有助于BERT理解每个词的表达。

    • Next Sentence Prediction:给定一对句子A和B,判断B是否是A的下一句。这可以学习句子之间的关系,捕获上下文信息,有助于BERT在文档层面上理解语言。

  • 李宏毅BERT

  • BERT

Enhanced Representation through Knowledge Integration (ERNIE)

  • ERNIE提出了Knowledge Masking的策略,ERNIE将Knowledge分成了三个类别:token级别(Basic-Level)、短语级别(Phrase-Level) 和 实体级别(Entity-Level)。通过对这三个级别的对象进行Masking,提高模型对字词、短语的知识理解。
  • 预训练模型ERINE
  • ERINE的改进

Generative Pre-Training (GPT)

  • GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention。

  • GPT

  • GPT阅读

相关推荐
@蔓蔓喜欢你几秒前
ES 模块:JavaScript 模块化的标准方案
人工智能·ai
狒狒热知识4 分钟前
媒体发稿软文营销行业价值升级从简单发稿到品牌全案传播服务进化
大数据·人工智能
数字供应链安全产品选型5 分钟前
2025年Gartner中国安全技术成熟度曲线解读:软件供应链安全从“过热”到“落地”的演进之路
人工智能·web安全·单元测试·软件供应链安全
jarvisuni5 分钟前
Claude Code的六种种授权模式!安全和效率控制
人工智能
南屹川6 分钟前
【数据库】Elasticsearch实战:从入门到精通
人工智能
2601_957884847 分钟前
多平台自媒体内容矩阵的AI调度引擎:从账号管理到线索闭环的全链路技术拆解
人工智能·矩阵·媒体
刘一说10 分钟前
AI科技热点日报 | AI Daily Report
人工智能·科技
财经资讯数据_灵砚智能11 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月23日
大数据·人工智能·python·信息可视化·自然语言处理
启芯硬件12 分钟前
用AI解决电源最复杂PDN问题的实战设计案例
人工智能·经验分享·嵌入式硬件·硬件工程·高速仿真
ujainu12 分钟前
CANN pto-isa:为什么 AI 编译需要虚拟 ISA
人工智能