Fine Tuning——Prompt-Learning && Delta Tuning

冰冰的coco2024-12-13 10:07

预训练大模型只能提供较好的初始化，面对纷繁复杂的NLP任务场景，需要进一步的微调训练。

1750亿参数

模型太大，单机根本无法微调
没有任何参数被微调，通过prompt方式使用
Descriptions（Prompts） + Few-shot examples to generate tokens

in-context leaning ：大模型见过几个examples再输出
优点

更好的语言理解和语言生成效果

更大的容积去学习新的知识

以前的方法微调要改变全部模型的参数，在GPT3上是不现实的，在110b其实就很难了

每个任务对应一个100多亿的模型，100个任务就有100个模型，从存储角度来讲也不现实

高效的微调大模型 Effective Model Adaptation

prompt-learning

给模型加入一些额外的上下文 trigger出一些token

让输入数据变得更具体

delta Tuning

用小参数去驱动大参数