8.1 prefix Tunning与Prompt Tunning模型微调方法

1 prefix Tunning

链接:https://blog.csdn.net/m0_66890670/article/details/142942034 这里有基础的细节介绍。我下面直接总结。

连接2 :https://zhuanlan.zhihu.com/p/1899112824342577371,简单明了

prefix Tunning改变了什么呢?

✅ Prefix-Tuning 显式扩展了 K/V 投影的尺寸;

Prefix-Tuning 会初始化一个可训练的参数矩阵(),其维度为 [prefix_length, hidden_dim]。在输入阶段,该前缀矩阵会与原始输入的嵌入向量 直接拼接 ,形成 [PREFIX; X] 的结构。

复制代码
  inputs = torch.cat([prefix, input_ids], dim=1)  # 拼接前缀与原始输入

计算流程:

  • 参数高效性 :仅需训练前缀参数(5×768),冻结原始模型权重7。
  • 注意力机制扩展:前缀通过修改K/V间接影响注意力分布,无需调整模型结构;

对于前缀 于 X分别进行计算然后拼接。

注意:

链接:https://blog.csdn.net/m0_66890670/article/details/142942034

2 Prompt Tuning

Prefix 与 prompt tunning 在注意力矩阵计算的二者的区别:

相关推荐
tntxia17 小时前
linux curl命令详解_curl详解
linux
冬奇Lab17 小时前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎
冬奇Lab17 小时前
每日一个开源项目(第146篇):openpilot - 开源自动驾驶辅助系统,曾在 Consumer Reports 评测中超过特斯拉 Autopilot
人工智能·开源·自动驾驶
吴佳浩18 小时前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
IT_陈寒19 小时前
Java的Date类又坑了我一次,改用时间戳真香
前端·人工智能·后端
扛枪的书生19 小时前
Linux 网络管理器用法速查
linux
码农胖大海19 小时前
AI额度不够用的解决方案
人工智能
后端小肥肠19 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao19 小时前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理