论文阅读 BERT GPT - transformer在NLP领域的延伸

文章目录

不会写的很详细,只是为了帮助我理解在CV领域transformer的拓展

1 摘要

1.1 BERT - 核心

双向 编码器 加上mask做完形填空超大模型无监督预训练 需要整个模型作为pretrain weight到下游任务做fintune

1.2 GPT - 核心

自回归 解码器 无需训练 只需Prompt

2 模型架构

2.1 概览


3 区别

3.1 finetune和prompt

BERT需要全部参数进行训练

GPT不需要训练即可完成下游任务

3.2 transformer及训练

BERT使用双向的编码器

GPT使用自回归的解码器

总结

总结个毛

相关推荐
joseanne_josie11 小时前
读论文笔记-ALIGN:利用有噪声数据集扩大视觉和视觉-语言表示
论文阅读
RedMery12 小时前
论文阅读笔记:Denoising Diffusion Implicit Models (2)
论文阅读·diffusion model
weixin_4352081613 小时前
通过 Markdown 改进 RAG 文档处理
人工智能·python·算法·自然语言处理·面试·nlp·aigc
RedMery14 小时前
论文阅读笔记:Denoising Diffusion Implicit Models (4)
论文阅读·笔记
Chaos_Wang_16 小时前
NLP高频面试题(三十三)——Vision Transformer(ViT)模型架构介绍
人工智能·自然语言处理·transformer
zhengdao990618 小时前
【论文笔记】Llama 3 技术报告
论文阅读·llama
weixin_435208161 天前
论文浅尝 | Interactive-KBQA:基于大语言模型的多轮交互KBQA(ACL2024)
人工智能·语言模型·自然语言处理
姚瑞南1 天前
从模糊感知到量化评估:构建一个Prompt打分工具
人工智能·自然语言处理·chatgpt·prompt·aigc
人工智能培训咨询叶梓1 天前
LLAMAFACTORY:一键优化大型语言模型微调的利器
人工智能·语言模型·自然语言处理·性能优化·调优·大模型微调·llama factory
sauTCc1 天前
N元语言模型的时间和空间复杂度计算
人工智能·语言模型·自然语言处理