自然语言处理阅读第一弹

Transformer架构

Embeddings from Language Model (ELMO)

Bidirectional Encoder Representations from Transformers (BERT)

  • BERT就是原生transformer中的Encoder

  • 两个学习任务:MLM和NSP

    • Masked Language Model:将输入句子中的某些token随机替换为MASK,然后基于上下文预测这些被替换的token。学习局部语义和上下文依赖关系。这有助于BERT理解每个词的表达。

    • Next Sentence Prediction:给定一对句子A和B,判断B是否是A的下一句。这可以学习句子之间的关系,捕获上下文信息,有助于BERT在文档层面上理解语言。

  • 李宏毅BERT

  • BERT

Enhanced Representation through Knowledge Integration (ERNIE)

  • ERNIE提出了Knowledge Masking的策略,ERNIE将Knowledge分成了三个类别:token级别(Basic-Level)、短语级别(Phrase-Level) 和 实体级别(Entity-Level)。通过对这三个级别的对象进行Masking,提高模型对字词、短语的知识理解。
  • 预训练模型ERINE
  • ERINE的改进

Generative Pre-Training (GPT)

  • GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention。

  • GPT

  • GPT阅读

相关推荐
半个落月2 小时前
LLM如何预测下一个Token?一文拆解Transformer核心流程
人工智能
触底反弹2 小时前
🔥 2026 年爆火的 Harness Engineering 到底是什么?从原理到实战一文讲透
javascript·人工智能·程序员
user4465117917912 小时前
源码深读 XAgent:6 个 Agent 怎么分工?工具失败不崩、死循环怎么防?
人工智能
魏祖潇2 小时前
SDD 完整指南——Spec 端打底、Story 端交付、留白区
人工智能·后端
常丛丛2 小时前
5.9 式输出:实时查看 LangGraph Agent 思考过程
人工智能
Token炼金师2 小时前
从节点图到低秩矩阵:ComfyUI 推理引擎与 LoRA 适配机制拆解
人工智能·aigc
武子康2 小时前
调查研究-210 Netflix 用 AI 复刻 Gene Wilder 的声音:语音克隆的下半场,不是模型,而是权利
人工智能·aigc·openai
Quz2 小时前
在 Obsidian 中嵌入 Claude Code 的实践记录
人工智能·claude
雪隐2 小时前
个人电脑玩AI-10让5060 Ti给你打工——部署 Odysseus:终于有个能打的"AI管家"了
人工智能·后端
武子康2 小时前
调查研究-209 Apptronik Robot Park 深度解析:人形机器人竞争,开始拼“真实世界数据工厂“
人工智能·google·llm