论文阅读——GPT3

来自论文:Language Models are Few-Shot Learners

Arxiv:https://arxiv.org/abs/2005.14165v2

记录下一些概念等。,没有太多细节。

预训练LM尽管任务无关,但是要达到好的效果仍然需要在特定数据集或任务上微调。因此需要消除这个限制。解决这些问题的一个潜在途径是元学习------在语言模型的背景下,这意味着该模型在训练时发展了一系列广泛的技能和模式识别能力,然后在推理时使用这些能力来快速适应或识别所需的任务(如图1.1所示)

"in-context learning":

关于"zero-shot", "one-shot", or "few-shot"的解释:

随着模型增大,in-context learning效果越好:

关于"zero-shot", "one-shot", or "few-shot"

模型结构和GPT2一样,但是改了初始化、预归一化、reversible tokenization,以及在transformers层中使用类似Sparse Transformer的交替密集和局部稀疏的注意力模式。

内容窗口大小=2048 tokens

训练了8个不同大小的模型:

其他细节:

训练大模型需要大batch,小学习率。

few-shot learning中,实例样本数量k取值可以从0到最大窗口大小,一般可以设为10-100。

相关推荐
正经人_x18 分钟前
学习日记28:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks
人工智能·深度学习·cnn
你们补药再卷啦30 分钟前
识别手写数字(keras)
深度学习·机器学习·keras
机器学习之心41 分钟前
贝叶斯优化Transformer-LSTM的模型结构图
深度学习·lstm·transformer
m0_704887891 小时前
Day44
人工智能·深度学习·机器学习
weixin_409383121 小时前
强化lora训练后的 用qwen训练的虚拟自己模型 这次挺好 数据总量300多条 加了十几条正常对话聊天记录
人工智能·深度学习·机器学习·训练模型
weixin_409383122 小时前
强化lora训练 这次好点 下次在训练数据增加正常对话
人工智能·深度学习·机器学习·qwen
十铭忘2 小时前
动作识别9——TSN训练实验
人工智能·深度学习·机器学习
雪花desu2 小时前
大模型应用评估—— 从 BLEU 到 Agent 综合评价
人工智能·深度学习·神经网络·语言模型
CoovallyAIHub2 小时前
深度学习驱动的视频异常检测(VAD),AI如何让监控更智能?
深度学习·算法·计算机视觉
汗流浃背了吧,老弟!3 小时前
把 Bert 回炉重铸——基于Bert的生成式任务训练
人工智能·深度学习·bert