一文理解提示微调（Prefix Tuning/Prompt Tuning/P Tuning）

📚 微调系列文章

随着大语言模型（LLM）规模和能力的提升，传统的全参数微调变得成本高昂且不灵活。

提示微调作为一种新兴的参数高效微调方法，通过调整输入提示（Prompt）而非模型权重，实现了更轻量、高效的模型定制。

在深入了解提示微调前，大家可以带着这三个问题阅读本文：

所有相关源码示例、流程图、模型配置与知识库构建技巧，我也将持续更新在Github：LLMHub，欢迎关注收藏！

传统微调需要更新模型的全部或部分权重，带来：

提示微调则通过设计和学习"软提示"向模型注入任务信息，避免修改模型参数，极大降低训练成本和维护复杂度。

提示微调的关键是将任务信息编码为可学习的连续向量（软提示），附加到输入序列前端：

这种方式本质上是调整模型的"输入上下文"，引导模型生成符合任务需求的输出。

Prefix Tuning 是一种针对预训练Transformer模型的参数高效微调方法。它的核心思想是在Transformer的每一层输入中，加入一组可训练的"前缀向量"（prefix vectors），这组向量作为额外的上下文信息，会参与注意力机制的计算。

具体来说，这些前缀向量被附加在键（Key）和值（Value）矩阵之前，使得模型在计算自注意力时，能够感知到这些新的上下文信息，从而调整模型输出。

特点：

P-Tuning 是一种基于"可训练提示词"（prompt tokens embedding）的微调技术，专注于优化模型对任务提示的理解。它通过引入一串可训练的虚拟token，这些token对应的嵌入向量在输入序列之前附加，作为模型输入的一部分。

与传统的"硬提示"（固定的自然语言提示词）不同，P-Tuning使这些提示词向量是可训练的 ，能够根据具体任务自动学习最优的提示表征，从而提升下游任务性能。
特点：

Prompt Tuning 是一种极简的微调方法，仅训练与提示相关的嵌入向量，并将其直接附加在模型的输入层。它可以看作是P-Tuning的简化版本，关注在输入层增加可训练的提示嵌入，帮助模型更好地聚焦任务信号。

这种方法通常只需训练很少的参数，极大减少了计算和存储开销，适合资源有限的场景。
特点：

最后我们回答一下文章开头提出的三个问题：

关于深度学习和大模型相关的知识和前沿技术更新，请关注公众号coting！