8.1 prefix Tunning与Prompt Tunning模型微调方法

1 prefix Tunning

链接:https://blog.csdn.net/m0_66890670/article/details/142942034 这里有基础的细节介绍。我下面直接总结。

连接2 :https://zhuanlan.zhihu.com/p/1899112824342577371,简单明了

prefix Tunning改变了什么呢?

✅ Prefix-Tuning 显式扩展了 K/V 投影的尺寸;

Prefix-Tuning 会初始化一个可训练的参数矩阵(),其维度为 [prefix_length, hidden_dim]。在输入阶段,该前缀矩阵会与原始输入的嵌入向量 直接拼接 ,形成 [PREFIX; X] 的结构。

复制代码
  inputs = torch.cat([prefix, input_ids], dim=1)  # 拼接前缀与原始输入

计算流程:

  • 参数高效性 :仅需训练前缀参数(5×768),冻结原始模型权重7。
  • 注意力机制扩展:前缀通过修改K/V间接影响注意力分布,无需调整模型结构;

对于前缀 于 X分别进行计算然后拼接。

注意:

链接:https://blog.csdn.net/m0_66890670/article/details/142942034

2 Prompt Tuning

Prefix 与 prompt tunning 在注意力矩阵计算的二者的区别:

相关推荐
Shingmc31 小时前
【Linux】线程互斥与同步
linux
数智化管理手记7 小时前
精益生产中的TPM管理是什么?一文破解设备零故障的密码
服务器·网络·数据库·低代码·制造·源代码管理·精益工程
lijianhua_97128 小时前
国内某顶级大学内部用的ai自动生成论文的提示词
人工智能
Vect__8 小时前
深刻理解进程、线程、程序
linux
蔡俊锋8 小时前
用AI实现乐高式大型可插拔系统的技术方案
人工智能·ai工程·ai原子能力·ai乐高工程
自然语8 小时前
人工智能之数字生命 认知架构白皮书 第7章
人工智能·架构
大熊背8 小时前
利用ISP离线模式进行分块LSC校正的方法
人工智能·算法·机器学习
w6100104668 小时前
CKAD-2026-Ingress
运维·k8s·ckad
eastyuxiao8 小时前
如何在不同的机器上运行多个OpenClaw实例?
人工智能·git·架构·github·php
诸葛务农8 小时前
AGI 主要技术路径及核心技术:归一融合及未来之路5
大数据·人工智能