[阅读笔记2][FLAN]FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS

接下来这篇是谷歌的FLAN,提出了指令微调这一新范式,在2022年发表。

这篇论文指出GPT3的zero-shot性能相比few-shot性能差太多了。他们发现如果对预训练模型进行指令微调能使zero-shot性能显著提升,下面右图显示指令微调后zero-shot比GPT3 few-shot性能都要强。

左图解释了指令微调,就是把输入转化为指令的格式,然后再去不相关的任务上做微调,最后却能提升没见过任务的性能。

指令微调是将前两种范式进行了结合,提升了语言模型在推理时的交互响应。

第一种范式就是预训练微调范式,针对特定任务需要特定数据集来微调。

第二种范式是gpt3提出的prompting范式,把任务相关的示例输入给模型,利用模型上下文学习能力来得到想要的输出。

第三种就是本文提出的指令微调范式,可以显著提升模型的zero-shot能力。

微调一共使用了62个文本数据集,每个数据集又属于不同任务,按照任务分类可以分为12类。为了测试模型的zero-shot能力,他这里定义了一下没见过的任务,他认为只有任务类中所有数据集都没见过,那这个任务才算是没见过的任务。以自然语言推理任务为例,使用剩余11个任务类中数据集进行微调,然后自然语言推理任务中的数据集作为测试集进行测试。

对于每一个数据集,作者又定义了10个不同的输入模板,这是为了防止模型对某一特定输入过拟合。但后续实验证明效果不明显。

模型使用的是LaMDA的预训练版本,然后对其进行指令微调。下图是FLAN的zero-shot性能,虽然模型不如GPT3大,但是性能却比GPT3要好。

作者做了三个消融实验,第一个是考虑参与微调的任务类数量,如图中所示,随着微调的其他任务增多,模型平均性能持续上升。第二个消融是考虑模型大小,对于大模型指令微调才有性能提升的作用,对于小模型反而性能变差了,对于这点可能的解释是对小模型微调会挤占参数空间,造成预训练的通用知识遗忘。

最后一个消融是考虑指令格式的作用,因为性能提升也可能单纯因为进行了微调,扩大了参与训练的语料。以翻译任务为例,作者将模型输入分为了三种格式,第一种就是简单输入待翻译句子,第二种先输入任务名再输入数据集名最后是句子,第三种就是指令格式。可以看到还是使用指令格式的输入性能最好,也就是说模型提升纯粹是因为指令这种格式。

相关推荐
chushiyunen23 分钟前
langchain4j笔记、tools
笔记·python·flask
甲维斯40 分钟前
还要啥Codex!DeepSeek接入Zcode远程连接!
人工智能
百胜软件@百胜软件1 小时前
百胜软件亮相“AI消费新生活”主题日活动,AI智能运营平台入选市级案例征集
人工智能·生活·零售数字化·数智中台·珠宝行业
专注搞钱2 小时前
GPT-4o写设备Recipe:从3小时到10分钟
数据库·人工智能·gpt·半导体
闻道参看2 小时前
贝芯宠AI灵兽 ELFVET 大模型聚焦临床应用,强化宠物诊疗综合能力
人工智能·宠物
MartinYeung52 小时前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型
财经资讯数据_灵砚智能2 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月14日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
影视飓风TIM2 小时前
数据结构 | 链表超全笔记(单链表+双链表+高频算法题)
数据结构·笔记·链表
二哈赛车手2 小时前
新人笔记---最终版智能体图片分析完整方案,包括一些总结于经验,以及各种优化点讲解
java·笔记·spring·ai·springboot
_李小白2 小时前
【智能驾驶:视觉感知后处理 阅读笔记】Day4: 相机成像模型与畸变
笔记·数码相机