论文阅读——GPT3

来自论文:Language Models are Few-Shot Learners

Arxiv:https://arxiv.org/abs/2005.14165v2

记录下一些概念等。,没有太多细节。

预训练LM尽管任务无关,但是要达到好的效果仍然需要在特定数据集或任务上微调。因此需要消除这个限制。解决这些问题的一个潜在途径是元学习------在语言模型的背景下,这意味着该模型在训练时发展了一系列广泛的技能和模式识别能力,然后在推理时使用这些能力来快速适应或识别所需的任务(如图1.1所示)

"in-context learning":

关于"zero-shot", "one-shot", or "few-shot"的解释:

随着模型增大,in-context learning效果越好:

关于"zero-shot", "one-shot", or "few-shot"

模型结构和GPT2一样,但是改了初始化、预归一化、reversible tokenization,以及在transformers层中使用类似Sparse Transformer的交替密集和局部稀疏的注意力模式。

内容窗口大小=2048 tokens

训练了8个不同大小的模型:

其他细节:

训练大模型需要大batch,小学习率。

few-shot learning中,实例样本数量k取值可以从0到最大窗口大小,一般可以设为10-100。

相关推荐
SkyXZ1 小时前
手把手教你实现PyTorch版ViT:图像分类任务中的Transformer实战
深度学习
hao_wujing1 小时前
深度学习网络入侵检测系统警报
人工智能·深度学习
猎嘤一号3 小时前
使用 PyTorch 和 SwanLab 实时可视化模型训练
人工智能·pytorch·深度学习
福大大架构师每日一题4 小时前
pytorch v2.7.1 发布!全面修复关键BUG,性能与稳定性再升级,2025年深度学习利器必备!
pytorch·深度学习·bug
蹦蹦跳跳真可爱5894 小时前
Python----神经网络发(神经网络发展历程)
人工智能·python·深度学习·神经网络·计算机视觉
king of code porter6 小时前
深度学习之模型压缩三驾马车:基于ResNet18的模型剪枝实战(3)
人工智能·深度学习·剪枝
有Li6 小时前
分割任意组织:用于医学图像分割的单样本参考引导免训练自动点提示方法|文献速递-深度学习医疗AI最新文献
论文阅读·深度学习·计算机视觉
追风哥哥6 小时前
Transformer、RNN (循环神经网络) 和 CNN (卷积神经网络)的区别
rnn·深度学习·cnn·卷积神经网络·transformer
DUTBenjamin6 小时前
深度学习5——循环神经网络
人工智能·rnn·深度学习
struggle20256 小时前
tvm开源程序是适用于 CPU、GPU 和专用加速器的开放式深度学习编译器堆栈
人工智能·python·深度学习