SELF-INSTRUCT: Aligning Language Modelswith Self-Generated Instructions 学习

指令微调就是要训练模型执行用户的要求的能力。

文章首先说"指令微调"数据集经常是人工生成,有数量少等缺点。文章提供了一个让语言模型自己生成指令微调数据,自己学习的方法。首先会让一个语言模型自己生成要求,输入和输出,然后去除低质量,重复的例子,得到的数据集再去训练这个语言模型。接下来是流程中的一些细节:

1,从人工生成的初始任务池中选出8个的instruction作为例子交给模型,让它生成类似的instruction。

如图,给8个实例,然后让模型继续生成。

2,让模型分辨这个instruction是不是分类任务。

如图,给模型几个例子,让他知道什么叫分类任务,什么叫非分类任务,然后然他分辨一下自己刚刚生成的任务是不是分类任务。

3,实例生成,也就是input,output的生成。这一步中,第二步的工作就要发挥作用了。文章表示在分类任务中,先生成output再生成input更好,其他的任务都是先生成input再生成output。

4.筛选。文章使用ROUGE-L similarity(Rouge-L是基于最长公共子序列的相似度评价指标。 它寻找参考摘要和文摘之间的最长公共子序列,并计算其相似度分数。)计算新instruction和已有instruction之间的相似度,只有新instruction和每一个旧instruction相似度都不超过0.7的时候它才会被采纳。在input,output方面,筛掉和旧例子完全一样或者input一样output不一样的。

5.微调。把新得到的数据喂给模型,多弄一些花样(比如修改一下格式之类的)给他训练

基本结构就是这样,接下来是收集到的数据的统计。

下面是收集到的任务信息的统计:

作者还研究了一下这些instruction当中最常见的动词和名词

这些词汇可以表现instruction多样性的程度。

还要检查新产生的这些任务相较于原始的任务池有多大差别,依旧是使用ROUGE-L算法计算相似度。

可以看到大部分都集中在0.2到0.4,相似度较低。

还统计了instruction的长度之类的信息。

总而言之,论文用这些数据来证明模型新产生的数据是足够多样化,且与原有数据差别够大的。接下来就要衡量这些数据质量够不够高。

为了衡量得到数据的质量,项目组随机选择了200个instruction,每个instruction随便选一个inputoutput对,然后请了项目组的老大来评价这些数据:

最终正确率为54%,不过作者说即使最终正确率不高,至少大部分样例是部分正确的,可以用来训练模型。

接下来是实验这些数据有没有用:

相关推荐
小宋加油啊1 小时前
机械臂抓取物体 PVN3D算法调研学习
学习·算法·3d
Xzh04232 小时前
AI Agent 学习路线(Java 后端方向)
java·人工智能·学习
做cv的小昊2 小时前
计算机图形学:【Games101】学习笔记08——光线追踪(辐射度量学、渲染方程与全局光照、蒙特卡洛积分与路径追踪)
图像处理·笔记·学习·计算机视觉·游戏引擎·图形渲染·概率论
星恒随风2 小时前
C++ 类和对象入门(五):初始化列表、explicit 和 static 成员详解
开发语言·c++·笔记·学习·状态模式
谷歌玩家4 小时前
如何让大模型稳定输出JSON格式数据
语言模型
sensen_kiss4 小时前
CPT304 SoftwareEngineeringII 软件工程 2 Pt.8 软件测试 (Software Testing)(上)
学习·软件工程
力学与人工智能4 小时前
PPT分享 | 洛桑联邦理工学院魏震:深度几何学习在工业设计优化中的应用
学习·优化·工业设计·深度几何学习·洛桑联邦理工学院
湘美书院--湘美谈教育5 小时前
湘美谈教育AI系列经验集锦:赋能整理聊斋志异大寓言
大数据·人工智能·深度学习·神经网络·机器学习
sensen_kiss6 小时前
CPT304 SoftwareEngineeringII 软件工程 2 Pt.9 软件测试 (Software Testing)(下)
学习·软件工程
wu_ye_m6 小时前
学习c语言第35天 函数声明和定义
c语言·开发语言·学习