论文阅读 BERT GPT - transformer在NLP领域的延伸

文章目录

不会写的很详细,只是为了帮助我理解在CV领域transformer的拓展

1 摘要

1.1 BERT - 核心

双向 编码器 加上mask做完形填空超大模型无监督预训练 需要整个模型作为pretrain weight到下游任务做fintune

1.2 GPT - 核心

自回归 解码器 无需训练 只需Prompt

2 模型架构

2.1 概览


3 区别

3.1 finetune和prompt

BERT需要全部参数进行训练

GPT不需要训练即可完成下游任务

3.2 transformer及训练

BERT使用双向的编码器

GPT使用自回归的解码器

总结

总结个毛

相关推荐
UQI-LIUWJ1 小时前
论文略读:REEF: Representation Encoding Fingerprints for Large Language Models
人工智能·语言模型·自然语言处理
cnblogs.com/qizhou/1 小时前
综述论文解读:Editing Large Language Models: Problems, Methods, and Opportunities
人工智能·语言模型·自然语言处理
UQI-LIUWJ1 小时前
论文笔记:Large Language Models for Next Point-of-Interest Recommendation
人工智能·语言模型·自然语言处理
蓦然回首却已人去楼空13 小时前
Build a Large Language Model (From Scratch) 第二章 Working with text data
人工智能·语言模型·自然语言处理
一个天蝎座 白勺 程序猿13 小时前
Python爬虫(54)Python数据治理全攻略:从爬虫清洗到NLP情感分析的实战演进
爬虫·python·自然语言处理
m0_634448891 天前
图上合成:用于大型语言模型持续预训练的知识合成数据生成
人工智能·语言模型·自然语言处理
张较瘦_1 天前
[论文阅读] 人工智能 | 利用负信号蒸馏:用REDI框架提升LLM推理能力
论文阅读·人工智能
1296004521 天前
机器学习的可解释性
人工智能·深度学习·自然语言处理·transformer
zhurui_xiaozhuzaizai1 天前
模型训练-关于token【低概率token, 高熵token】
人工智能·算法·自然语言处理
HyperAI超神经1 天前
8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂
人工智能·深度学习·机器学习·语言模型·自然语言处理·ai for science·蛋白质结构