8.1 prefix Tunning与Prompt Tunning模型微调方法

1 prefix Tunning

链接:https://blog.csdn.net/m0_66890670/article/details/142942034 这里有基础的细节介绍。我下面直接总结。

连接2 :https://zhuanlan.zhihu.com/p/1899112824342577371,简单明了

prefix Tunning改变了什么呢?

✅ Prefix-Tuning 显式扩展了 K/V 投影的尺寸;

Prefix-Tuning 会初始化一个可训练的参数矩阵(),其维度为 [prefix_length, hidden_dim]。在输入阶段,该前缀矩阵会与原始输入的嵌入向量 直接拼接 ,形成 [PREFIX; X] 的结构。

复制代码
  inputs = torch.cat([prefix, input_ids], dim=1)  # 拼接前缀与原始输入

计算流程:

  • 参数高效性 :仅需训练前缀参数(5×768),冻结原始模型权重7。
  • 注意力机制扩展:前缀通过修改K/V间接影响注意力分布,无需调整模型结构;

对于前缀 于 X分别进行计算然后拼接。

注意:

链接:https://blog.csdn.net/m0_66890670/article/details/142942034

2 Prompt Tuning

Prefix 与 prompt tunning 在注意力矩阵计算的二者的区别:

相关推荐
暴风游侠2 小时前
linux知识点-内核参数相关
linux·运维·服务器·笔记
w_t_y_y5 小时前
Nginx Plus
运维·数据库·nginx
It's now6 小时前
Spring AI 基础开发流程
java·人工智能·后端·spring
Glad_R6 小时前
巧用AI流程图,让信息呈现更全面
人工智能·信息可视化·产品运营·流程图·产品经理
CAFEBABE 346 小时前
linux离线安装docker并启动
linux·docker·eureka
西南胶带の池上桜6 小时前
1.Pytorch模型应用(线性与非线性预测)
人工智能·pytorch·python
曼巴UE57 小时前
UE FString, FName ,FText 三者转换,再次学习,官方文档理解
服务器·前端·javascript
杀生丸学AI7 小时前
【无标题】VGGT4D:用于4D场景重建的视觉Transformer运动线索挖掘
人工智能·深度学习·3d·aigc·transformer·三维重建·视觉大模型
wanhengidc7 小时前
云手机的存储空间可以灵活扩展吗?
运维·服务器·科技·智能手机·云计算