10.不改模型只改提示P-Tuning微调新思路

文章目录

    • [1. 为什么要对提示词进行微调?](#1. 为什么要对提示词进行微调?)
    • 2.深度解析P-Tuning微调核心思想
    • 3.总结与思考
      • 3.1传统离散提示词存在什么问题?
      • [3.2 P-tuning中虚拟Token的作用是什么?](#3.2 P-tuning中虚拟Token的作用是什么?)
      • [3.3 在P-Tuning中使用LTSM和MLP有什么共同点和区别?](#3.3 在P-Tuning中使用LTSM和MLP有什么共同点和区别?)
      • [3.4和LoRA tuning相比,P-tuning有什么本质上的区别?](#3.4和LoRA tuning相比,P-tuning有什么本质上的区别?)

1. 为什么要对提示词进行微调?



2.深度解析P-Tuning微调核心思想




3.总结与思考

3.1传统离散提示词存在什么问题?

  1. 性能极度不稳定(脆弱性),这是离散提示最致命的弱点。模型的输出结果对提示词的措辞极其敏感。
  2. 优化困难(不可微分),离散提示是由具体的、独立的词汇组成的,这导致了它在数学上是不可微分的。
  3. 鲁棒性差(易受干扰),面对输入扰动时表现脆弱,无关的符号、标点错误等
  4. 可能产生"反直觉"的结果,包含嘈杂、无意义甚至违反直觉的词汇组合

3.2 P-tuning中虚拟Token的作用是什么?

特性 传统离散提示词 (人工编写) P-Tuning 虚拟 Token
形式 具体的自然语言文字 (如 "Translate:") 随机初始化的向量,训练后变为抽象表示
优化方式 人工试错、暴力搜索 梯度反向传播、自动优化
稳定性 敏感,易受措辞影响 稳定,鲁棒性强
主要作用 告诉模型"怎么做" 编码任务信息,引导模型注意力

3.3 在P-Tuning中使用LTSM和MLP有什么共同点和区别?

LSTM(Long Short-Term Memory长短期记忆网络 RNN循环神经网络的变体 )/MLP(多层感知机)

维度 MLP (多层感知机) LSTM (长短期记忆网络)
核心能力 非线性映射 序列建模
结构特点 全连接前馈网络,无记忆功能。 带有门控机制的循环神经网络,能捕捉序列依赖。
对 Token 的处理 将每个虚拟 Token 独立处理或通过全连接层进行简单的非线性组合。 将虚拟 Token 视为一个序列,考虑它们之间的顺序和依赖关系。
参数量 相对较少,结构简单。 相对较多,结构复杂(包含遗忘门、输入门、输出门)。
训练难度 训练速度快,收敛相对容易。 训练速度较慢,可能更难收敛。
适用场景 推荐使用。对于大多数 NLP 任务,简单的非线性变换已经足够有效。 特定需求。如果你认为提示词之间的顺序非常重要,需要模型"记忆"前面的虚拟 Token 来决定后面的输出时使用。

3.4和LoRA tuning相比,P-tuning有什么本质上的区别?

P-Tuning 是在"喂数据"上下功夫(优化输入),而 LoRA 是在"改结构"上做文章

相关推荐
EdisonZhou3 小时前
MAF快速入门(18)Agent Skill 快速开始
llm·aigc·agent
会写代码的柯基犬7 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
神秘的猪头11 小时前
🔌 给 AI 装上“三头六臂”!实战大模型接入第三方 MCP 全攻略
langchain·llm·mcp
神秘的猪头1 天前
🔌 把 MCP 装进大脑!手把手带你构建能“热插拔”工具的 AI Agent
langchain·llm·mcp
智泊AI1 天前
一文讲清:Agent、Workflow、MCP的区别是啥?
llm
warm3snow2 天前
Claude Code 黑客马拉松:5 个获奖项目,没有一个是"纯码农"做的
ai·大模型·llm·agent·skill·mcp
马腾化云东2 天前
Agent开发应知应会(langfuse):Langfuse Score概念详解和实战应用
人工智能·llm·ai编程
Baihai_IDP2 天前
HackerNews 热榜第一名:AGI 的 A,原来代表的是 Ads(广告)
人工智能·程序员·llm
吴佳浩3 天前
OpenClaw Windows 完整安装与本地模型配置教程(实战版)
llm·openai
吴佳浩4 天前
《大模型的文件形态:Qwen3 文件结构与计算流程深度拆解》
人工智能·llm