论文笔记：Tuning Language Models by Proxy

UQI-LIUWJ2025-07-28 12:47

COLM 2024

1 INTRO

尽管大型预训练语言模型（如 GPT-4、LLAMA2 等）具有很强的通用能力，但它们仍然需要进一步的微调来更好地完成特定任务，比如：

遵循指令（instruction-following）
适应特定领域（如代码、法律等）
执行具体任务（如问答、数学推理）

问题是：

这些微调成本高昂，资源需求大；
对于闭源模型（如 GPT-4），用户甚至无法访问其参数，无法直接微调。
论文提出了Proxy-tuning
- 一种 "推理时调整（decoding-time adaptation）" 的方法，不需要修改大模型的权重，仅需访问其 输出的 token 分布（logits）。
- 基本思想是
  - 微调一个 小模型（称为 expert，专家模型）；
  - 将其与原始小模型（称为 anti-expert，反专家）对比；
  - 将它们的预测差异用于 引导大模型的输出，以模仿微调后模型的行为。

2 方法

假设我们有一个预训练模型，我们希望对它进行调优。
- 对于任意输入，我们假设可以访问其对整个词表的输出 logits。
- 我们的问题是：如何在不需要修改其参数的情况下，引导 表现得像一个已经被调优过的模型？
我们假设存在一个小型的预训练模型，我们将其直接微调，得到。
- 注意，不必与属于同一个模型家族；我们只要求它们共享同一个词表。
- Proxy-tuning 的运作方式是：在大模型的输出分布上，为每个 token 加上一个 logit 偏移量 ，这个偏移量由与的 logits 差值决定。

3 实验结果

指令微调（Instruction-tuning）

目标：让大模型（如 LLAMA2-13B, 70B）具备 LLAMA2-7B-Chat 那样的指令跟随能力。
效果：
- Proxy-tuning 缩小了 LLAMA2-13B 与其 Chat 版之间 91% 的性能差距；
- 在 70B 上缩小了 88% 的差距；
- 某些任务中甚至 超越了直接微调模型的效果（尤其是知识密集型任务），说明 proxy-tuning 保留了更多原始知识。

领域适应（Domain Adaptation）

使用 CODELLAMA-7B 引导 LLAMA2-13B 向编程任务迁移；
在代码基准测试中，提升了 17--32% 的准确率。

任务微调（Task Finetuning）

应用于问答、数学推理等；
Proxy-tuned LLAMA2-70B 比原始 70B 提升了 31%；
同时也超过了微调的 7B 模型 9%，说明结合大模型的知识和小模型的专长是有效的。

上一篇：Spring Boot + @RefreshScope：动态刷新配置的终极指南

下一篇：[RPA] Excel中的字典处理

热门推荐

01GitHub 镜像站点 02Labelme从安装到标注：零基础完整指南 03安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）04Linux下V2Ray安装配置指南 05Claude Code 2.1.2 升级报错？别折腾了，一行命令搞定 06jdk21下载、安装（Windows、Linux、macOS）07【踩坑笔记】50系显卡适配的 PyTorch 安装 08KGG转MP3工具|非KGM文件|解密音频 09Overleaf编译超时，超出免费计划编译时限（已解决）10UV安装并设置国内源