论文阅读——GPT3

来自论文:Language Models are Few-Shot Learners

Arxiv:https://arxiv.org/abs/2005.14165v2

记录下一些概念等。,没有太多细节。

预训练LM尽管任务无关,但是要达到好的效果仍然需要在特定数据集或任务上微调。因此需要消除这个限制。解决这些问题的一个潜在途径是元学习------在语言模型的背景下,这意味着该模型在训练时发展了一系列广泛的技能和模式识别能力,然后在推理时使用这些能力来快速适应或识别所需的任务(如图1.1所示)

"in-context learning":

关于"zero-shot", "one-shot", or "few-shot"的解释:

随着模型增大,in-context learning效果越好:

关于"zero-shot", "one-shot", or "few-shot"

模型结构和GPT2一样,但是改了初始化、预归一化、reversible tokenization,以及在transformers层中使用类似Sparse Transformer的交替密集和局部稀疏的注意力模式。

内容窗口大小=2048 tokens

训练了8个不同大小的模型:

其他细节:

训练大模型需要大batch,小学习率。

few-shot learning中,实例样本数量k取值可以从0到最大窗口大小,一般可以设为10-100。

相关推荐
墨利昂10 小时前
Transformer架构:深度学习序列建模的革命性突破
深度学习·架构·transformer
我是李武涯10 小时前
PyTorch Dataloader工作原理 之 default collate_fn操作
pytorch·python·深度学习
无风听海10 小时前
神经网络之计算图repeat节点
人工智能·深度学习·神经网络
MYX_30911 小时前
第三章 线型神经网络
深度学习·神经网络·学习·算法
应用市场14 小时前
GPS车辆实时定位与轨迹预测技术实现
深度学习
技术闲聊DD14 小时前
深度学习(5)-PyTorch 张量详细介绍
人工智能·pytorch·深度学习
XIAO·宝14 小时前
深度学习------YOLOv4
深度学习·yolo·目标跟踪
小白狮ww14 小时前
LiveCC 首个视频解说大模型开源,比赛视频也能轻松拿捏!
人工智能·深度学习·机器学习
墨利昂17 小时前
10.17RNN情感分析实验:加载预训练词向量模块整理
人工智能·rnn·深度学习
JJJJ_iii18 小时前
【机器学习05】神经网络、模型表示、前向传播、TensorFlow实现
人工智能·pytorch·python·深度学习·神经网络·机器学习·tensorflow