8.1 prefix Tunning与Prompt Tunning模型微调方法

汀沿河2025-07-06 19:13

1 prefix Tunning

链接：https://blog.csdn.net/m0_66890670/article/details/142942034 这里有基础的细节介绍。我下面直接总结。

连接2 ：https://zhuanlan.zhihu.com/p/1899112824342577371，简单明了

prefix Tunning改变了什么呢？

✅ Prefix-Tuning 显式扩展了 K/V 投影的尺寸；

✅ Prefix-Tuning 会初始化一个可训练的参数矩阵（Pθ），其维度为 [prefix_length, hidden_dim]。在输入阶段，该前缀矩阵会与原始输入的嵌入向量 直接拼接 ，形成 [PREFIX; X] 的结构。

复制代码

  inputs = torch.cat([prefix, input_ids], dim=1)  # 拼接前缀与原始输入

计算流程：

参数高效性 ：仅需训练前缀参数（5×768），冻结原始模型权重7。
注意力机制扩展：前缀通过修改K/V间接影响注意力分布，无需调整模型结构；

对于前缀于 X分别进行计算然后拼接。

注意：

链接：https://blog.csdn.net/m0_66890670/article/details/142942034

2 Prompt Tuning

Prefix 与 prompt tunning 在注意力矩阵计算的二者的区别：

上一篇：[特殊字符] Python 自动查找替换 Excel 单元格内容 —— 高效批量处理

下一篇：OpenCV开发-初始概念

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06jdk21下载、安装（Windows、Linux、macOS）07GitLab 零基础入门指南：从安装到项目管理全流程 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09KGG转MP3工具|非KGM文件|解密音频 10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）