文章目录
- [一、引言 / 指令微调基础(必看 5 篇)](#一、引言 / 指令微调基础(必看 5 篇))
- [二、相关工作:数据过滤 / 数据选择(核心对标 4 篇)](#二、相关工作:数据过滤 / 数据选择(核心对标 4 篇))
- [三、方法动机:隐状态 / 模型内部信号(关键 3 篇)](#三、方法动机:隐状态 / 模型内部信号(关键 3 篇))
- [四、实验与基准(打榜必引 4 篇)](#四、实验与基准(打榜必引 4 篇))
- 五、模型与工程(可选但规范)
我直接按你这篇 CPQS‑Tuning 原文的章节逻辑,把参考文献里 最值得读、最经典、最能支撑你论文 的论文,按章节整理好, 标题+年份+一句话推荐理由 ,你写综述直接抄。
一、引言 / 指令微调基础(必看 5 篇)
- Training language models to follow instructions with human feedback (InstructGPT, 2022)
推荐:指令微调 + RLHF 开山之作,所有对齐工作的源头,必须引。 - Stanford Alpaca: An instruction-following LLaMA model (Alpaca, 2023)
推荐:开源指令微调范式鼻祖,你用的 Alpaca‑GPT4 就是它的延伸。 - Language models are few‑shot learners (GPT‑3, 2020)
推荐:基座大模型预训练的里程碑,解释"基座模型为什么需要微调"。 - LIMA: Less is more for alignment (2023)
推荐:高质量小数据胜过大数据,直接支撑你"数据过滤/精选"的动机。 - The Flan Collection: Designing data and methods for effective instruction tuning (2023)
推荐:指令微调数据工程最系统工作,奠定数据质量重要性。
二、相关工作:数据过滤 / 数据选择(核心对标 4 篇)
- Alpagasus: Training a better alpaca with fewer data (ICLR 2024)
推荐:用强 LLM 打分做数据过滤,你论文里直接对比的 SOTA。 - MoDS: Model‑oriented data selection for instruction tuning (2023)
推荐:面向目标模型的数据选择,和你"模型自感知"思路最接近。 - Superfiltering: Weak‑to‑strong data filtering for fast instruction tuning (ACL 2024)
推荐:小模型替大模型过滤,低成本数据筛选标杆,你必对比。 - What makes good data for alignment? (ICLR 2024)
推荐:自动数据选择最全面综述类工作,适合写相关工作。
三、方法动机:隐状态 / 模型内部信号(关键 3 篇)
- I've got the "answer"! Interpretation of LLM hidden states in QA (2024)
推荐:证明隐状态包含质量/正确性信号,直接支撑你 CPQS 核心假设。 - Latent space chain‑of‑embedding enables output‑free LLM self‑evaluation (2024)
推荐:不用生成答案,用隐状态做自我评估,和你思路高度一致。 - HSF: Defending against jailbreak attacks with hidden state filtering (WWW 2025)
推荐:用隐状态做过滤/筛选的实例,证明隐状态可用于数据判别。
四、实验与基准(打榜必引 4 篇)
- Measuring Massive Multitask Language Understanding (MMLU, 2021)
推荐:大模型知识能力最通用基准,你论文必测。 - Training verifiers to solve math word problems (GSM8K, 2021)
推荐:数学推理标准集,你下游任务核心基准。 - Evaluating large language models trained on code (HumanEval, 2021)
推荐:代码生成权威基准,你代码实验必引。 - AlpacaEval: An automatic evaluator of instruction‑following models (2023)
推荐:指令跟随能力自动评测标准,你对话类效果必用。
五、模型与工程(可选但规范)
- LLaMA 2: Open foundation and fine‑tuned chat models (2023)
推荐:开源基座模型标杆,你实验用的 Llama2 来源。 - Qwen2.5 technical report (2024)
推荐:你实验用到的强中文基座,必须标注来源。
极简总结(写论文直接用)
- 想讲为什么要指令微调:读 InstructGPT、Alpaca、LIMA
- 想讲为什么要数据过滤:读 Alpagasus、Superfiltering、MoDS
- 想讲为什么能用隐状态:读隐状态解读 + 自评估那 3 篇
- 想做评测打榜:读 MMLU、GSM8K、HumanEval、AlpacaEval
需要我把这些整理成可直接粘贴进论文的"Related Work"标准段落吗?