论文笔记:Tuning Language Models by Proxy

COLM 2024

1 INTRO

尽管大型预训练语言模型(如 GPT-4、LLAMA2 等)具有很强的通用能力,但它们仍然需要进一步的微调来更好地完成特定任务,比如:

  • 遵循指令(instruction-following)

  • 适应特定领域(如代码、法律等)

  • 执行具体任务(如问答、数学推理)

问题是:

  • 这些微调成本高昂,资源需求大;

  • 对于闭源模型(如 GPT-4),用户甚至无法访问其参数,无法直接微调

  • 论文提出了Proxy-tuning

    • 一种 "推理时调整(decoding-time adaptation)" 的方法,不需要修改大模型的权重,仅需访问其 输出的 token 分布(logits)

    • 基本思想是

      • 微调一个 小模型(称为 expert,专家模型);

      • 将其与原始小模型(称为 anti-expert,反专家)对比;

      • 将它们的预测差异用于 引导大模型的输出,以模仿微调后模型的行为。

2 方法

  • 假设我们有一个预训练模型,我们希望对它进行调优。
    • 对于任意输入,我们假设可以访问其对整个词表的输出 logits。
    • 我们的问题是:如何在不需要修改其参数的情况下,引导 表现得像一个已经被调优过的模型?
  • 我们假设存在一个小型的预训练模型,我们将其直接微调,得到
    • 注意, 不必与 属于同一个模型家族;我们只要求它们共享同一个词表。
    • Proxy-tuning 的运作方式是:在大模型的输出分布上,为每个 token 加上一个 logit 偏移量 ,这个偏移量由 的 logits 差值决定。

3 实验结果

指令微调(Instruction-tuning)

  • 目标:让大模型(如 LLAMA2-13B, 70B)具备 LLAMA2-7B-Chat 那样的指令跟随能力。

  • 效果:

    • Proxy-tuning 缩小了 LLAMA2-13B 与其 Chat 版之间 91% 的性能差距

    • 在 70B 上缩小了 88% 的差距;

    • 某些任务中甚至 超越了直接微调模型的效果(尤其是知识密集型任务),说明 proxy-tuning 保留了更多原始知识。

领域适应(Domain Adaptation)

  • 使用 CODELLAMA-7B 引导 LLAMA2-13B 向编程任务迁移;

  • 在代码基准测试中,提升了 17--32% 的准确率

任务微调(Task Finetuning)

  • 应用于问答、数学推理等;

  • Proxy-tuned LLAMA2-70B 比原始 70B 提升了 31%

  • 同时也超过了微调的 7B 模型 9%,说明结合大模型的知识和小模型的专长是有效的。

相关推荐
一车小面包13 小时前
人工智能中的线性代数总结--简单篇
人工智能·numpy
大模型真好玩14 小时前
深入浅出LangGraph AI Agent智能体开发教程(四)—LangGraph全生态开发工具使用与智能体部署
人工智能·python·mcp
算家计算14 小时前
OpenAI百亿美元造芯计划曝光,算力争夺战进入新阶段?
人工智能·openai·资讯
百锦再14 小时前
脚本语言的大浪淘沙或百花争艳
java·开发语言·人工智能·python·django·virtualenv·pygame
拓端研究室14 小时前
Python用PSO优化SVM与RBFN在自动驾驶系统仿真、手写数字分类应用研究
人工智能·机器学习
Shiyuan714 小时前
【检索通知】2025年IEEE第二届深度学习与计算机视觉国际会议检索
人工智能·深度学习·计算机视觉
shao91851614 小时前
Gradio全解10——Streaming:流式传输的音频应用(7)——ElevenLabs:高级智能语音技术
人工智能·gradio·tts·streaming·elevenlabs·stt·eleven music
Monkey的自我迭代14 小时前
基于OpenCV的银行卡号识别系统:从原理到实现
人工智能·opencv·计算机视觉
会写代码的饭桶14 小时前
通俗理解 LSTM 的三门机制:从剧情记忆到科学原理
人工智能·rnn·lstm·transformer
算家计算15 小时前
ComfyUI-MultiTalk本地部署教程:创新L-RoPE机制破解多音频流绑定难题,定义多人对话视频生成新SOTA!
人工智能·开源