8.1 prefix Tunning与Prompt Tunning模型微调方法

1 prefix Tunning

链接:https://blog.csdn.net/m0_66890670/article/details/142942034 这里有基础的细节介绍。我下面直接总结。

连接2 :https://zhuanlan.zhihu.com/p/1899112824342577371,简单明了

prefix Tunning改变了什么呢?

✅ Prefix-Tuning 显式扩展了 K/V 投影的尺寸;

Prefix-Tuning 会初始化一个可训练的参数矩阵(),其维度为 [prefix_length, hidden_dim]。在输入阶段,该前缀矩阵会与原始输入的嵌入向量 直接拼接 ,形成 [PREFIX; X] 的结构。

复制代码
  inputs = torch.cat([prefix, input_ids], dim=1)  # 拼接前缀与原始输入

计算流程:

  • 参数高效性 :仅需训练前缀参数(5×768),冻结原始模型权重7。
  • 注意力机制扩展:前缀通过修改K/V间接影响注意力分布,无需调整模型结构;

对于前缀 于 X分别进行计算然后拼接。

注意:

链接:https://blog.csdn.net/m0_66890670/article/details/142942034

2 Prompt Tuning

Prefix 与 prompt tunning 在注意力矩阵计算的二者的区别:

相关推荐
九丝城主2 分钟前
2025使用VM虚拟机安装配置Macos苹果系统下Flutter开发环境保姆级教程--中篇
服务器·flutter·macos·vmware
聚客AI7 分钟前
大模型学习进阶路线图:从Prompt到预训练的四阶段全景解析
人工智能·llm·掘金·日新计划
晓131311 分钟前
第七章 OpenCV篇——角点检测与特征检测
人工智能·深度学习·计算机视觉
码出钞能力27 分钟前
linux内核模块的查看
linux·运维·服务器
DeepSeek大模型官方教程41 分钟前
NLP之文本纠错开源大模型:兼看语音大模型总结
大数据·人工智能·ai·自然语言处理·大模型·产品经理·大模型学习
星辰云-1 小时前
# Linux Centos系统硬盘分区扩容
linux·运维·centos·磁盘扩容
Hellc0071 小时前
Nginx 高级 CC 与 DDoS 防御策略指南
运维·nginx·ddos
聽雨2371 小时前
02每日简报20250704
linux·科技·金融·生活·社交电子·娱乐·媒体
MidJourney中文版1 小时前
深度报告:中老年AI陪伴机器人需求分析
人工智能·机器人
feilieren1 小时前
Docker 安装 Elasticsearch 9
运维·elasticsearch·docker·es