大模型背后的范式
整个预训练语言模型的使用范式:
对于预训练模型,最核心的要素是从无标注的数据中去学习,通过自监督的一些任务去做预训练,得到丰富的知识。在具体的应用中,会引入一些任务相关的数据,去调整模型;相当于在这个已经预训练训练好的模型上(获得通用知识),引入任务相关数据,对具体的任务去进行一些适配,最终得到一个解决具体任务额模型。
为什么采用上面"预训练+微调"的范式?
最早追溯到transfer learning 迁移学习,某种程度上,预训练模型就是在做一个transfer learning