1 prefix Tunning
链接:https://blog.csdn.net/m0_66890670/article/details/142942034 这里有基础的细节介绍。我下面直接总结。
连接2 :https://zhuanlan.zhihu.com/p/1899112824342577371,简单明了
prefix Tunning改变了什么呢?
✅ Prefix-Tuning 显式扩展了 K/V 投影的尺寸;
✅ Prefix-Tuning 会初始化一个可训练的参数矩阵(Pθ
),其维度为 [prefix_length, hidden_dim]
。在输入阶段,该前缀矩阵会与原始输入的嵌入向量 直接拼接 ,形成 [PREFIX; X]
的结构。
inputs = torch.cat([prefix, input_ids], dim=1) # 拼接前缀与原始输入
计算流程:

- 参数高效性 :仅需训练前缀参数(
5×768
),冻结原始模型权重7。 - 注意力机制扩展:前缀通过修改K/V间接影响注意力分布,无需调整模型结构;
对于前缀 于 X分别进行计算然后拼接。
注意:

链接:https://blog.csdn.net/m0_66890670/article/details/142942034
2 Prompt Tuning

Prefix 与 prompt tunning 在注意力矩阵计算的二者的区别:
