论文阅读 BERT GPT - transformer在NLP领域的延伸

highoooo2024-01-16 1:35

文章目录

不会写的很详细，只是为了帮助我理解在CV领域transformer的拓展
[1 摘要](#1 摘要)
- [1.1 BERT - 核心](#1.1 BERT - 核心)
- [1.2 GPT - 核心](#1.2 GPT - 核心)
[2 模型架构](#2 模型架构)
- [2.1 概览](#2.1 概览)
[3 区别](#3 区别)
- [3.1 finetune和prompt](#3.1 finetune和prompt)
[3.2 transformer及训练](#3.2 transformer及训练)
总结

不会写的很详细，只是为了帮助我理解在CV领域transformer的拓展

1 摘要

1.1 BERT - 核心

双向编码器 加上mask做完形填空超大模型无监督预训练需要整个模型作为pretrain weight到下游任务做fintune

1.2 GPT - 核心

自回归解码器 无需训练只需Prompt

2 模型架构

2.1 概览

3 区别

3.1 finetune和prompt

BERT需要全部参数进行训练

GPT不需要训练即可完成下游任务

3.2 transformer及训练

BERT使用双向的编码器

GPT使用自回归的解码器

总结

总结个毛

上一篇：【UnityShader入门精要学习笔记】第四章（4）矩阵的几何意义

下一篇：1.1 面试经典 150 题-合并两个有序数组

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 05Linux下V2Ray安装配置指南 06安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）07“我的电脑”图标没了怎么办 4种方法找回 08全球最强模型Grok4，国内已可免费使用！（附教程）0946个Nano-banana 精选提示词，持续更新中 10KGG转MP3工具|非KGM文件|解密音频