ACL 2025杰出论文｜删掉95%样本，长上下文评测还能保持0.97相关

论文与代码链接：

• 论文：arXiv 2505.19959，https://arxiv.org/abs/2505.19959

• ACL Anthology：Outstanding Paper，https://aclanthology.org/2025.acl-long.560/

• 代码与数据：GitHub，https://github.com/MilkThink-Lab/MiniLongBench

长上下文能力已经成为大模型竞赛里最昂贵、也最难被稳定评估的一环。问题在于，评测本身也越来越像一次小型训练任务：长文本、多任务、大量样本，再叠加模型推理成本，最后变成研究者很难频繁运行的"重型仪器"。

中山大学的研究者在 ACL 2025 Outstanding Paper《MiniLongBench》中给出了一个反直觉答案：长上下文评测不一定要保留那么多样本。通过对 LongBench 进行压缩，他们构建了 MiniLongBench，一个只包含237个测试样本、覆盖6大任务类别和21个细分任务的低成本长上下文理解基准。更关键的是，论文在超过60个LLM上的分析显示，MiniLongBench 的平均评测成本降到原来的4.5%，同时与 LongBench 结果保持0.97的平均排名相关系数。换句话说，它试图回答的不是"能不能少测一点"，而是"少测很多以后，模型排序还靠不靠谱"。

长上下文评测，为什么会变贵

Long Context Understanding，简称 LCU，指的是模型处理数千乃至数万 token 上下文的能力。问答、论文阅读、长报告摘要、代码仓库理解，都依赖这种能力。

但长上下文基准天然有一个成本问题：每个样本都很长，每次推理都要消耗大量 token 和显存。LongBench 作为经典长上下文理解基准，包含近5000个测试样本，覆盖单文档问答、多文档问答、摘要、few-shot learning、合成任务和代码补全等场景。

论文给出的一个直观数字是，在8张RTX 3090 GPU、batch size为1的设置下，一些模型跑完整个 LongBench 需要约15到30小时。对于需要反复调参、比较checkpoint、验证长上下文能力的研究团队来说，这种评测成本并不轻。

图1：论文 Figure 1，LongBench 与 MiniLongBench 的测试时间对比。

真正的切入点：LongBench里有多少冗余

研究者首先做了一组随机采样实验：从 LongBench 不同任务类别中大量随机删除样本，再观察这些子集与完整 LongBench 评测结果之间的 Spearman 排名相关系数。

结果很有意思。即使随机移除95%、98%甚至99%的数据，仍然有一些子集可以和完整 LongBench 保持较强相关。这说明一个问题：长上下文基准里并非每个样本都同样关键，部分样本对模型排名的贡献存在重叠。

但随机删数据并不是解法。论文也指出，随机采样方差很大，可能偶尔抽到一个好子集，也很容易抽到一个破坏分布的子集。因此，MiniLongBench 的核心不在于"删"，而在于"怎么选"。

方法：先压缩长文本，再学习样本代表性

MiniLongBench 的构建流程可以拆成三步。

第一步是数据预处理。由于长文本里的有效信息高度稀疏，研究者先用文本编码器把样本转成向量，再通过PCA降维，把样本初始化为更稠密的低维表示。论文默认使用的表示维度是d=10。

第二步是表示学习。研究者借鉴类似 Item Response Theory 的思路，把"模型"和"测试样本"都映射到同一个性能空间里。直观理解，每个样本不只是一段文本，它还带有某种"区分模型能力"的属性：强模型和弱模型在它上面的表现差异，能帮助判断这个样本是否有代表性。

第三步是聚类。完成表示学习后，论文将样本表示进行 K-Means 聚类，并选取聚类中心作为代表性测试样本。最终得到的 MiniLongBench 只保留237个样本，但仍覆盖 LongBench 原本的6类任务和21个细分任务。

237个样本，覆盖什么

MiniLongBench 并不是只保留某几类容易评测的任务。根据论文 Table 1，它保留了 LongBench 的完整任务版图：单文档问答、多文档问答、摘要、few-shot learning、合成任务和代码补全。

从样本数量看，压缩力度非常大。例如 NarrativeQA 从200个样本压到6个，PassageCount 从200个压到4个，代码补全里的 LCC 从500个压到26个，RepoBench-P 从500个压到23个。整体上，它约减少了95%的样本量。

这也是 MiniLongBench 最需要被验证的地方：样本变少并不难，难的是任务覆盖和模型排序不能明显失真。

实验结果：成本降到4.5%，相关性保持0.97

论文在超过60个LLM上验证了 MiniLongBench 的有效性。其中20个模型参与构建过程，其他模型用于测试泛化。

直接使用 MiniLongBench 进行评测时，它与 LongBench 可以达到0.95左右的 Spearman 相关。进一步地，论文还提出一种估计方式：先在 MiniLongBench 的样本上测试新模型，再利用学习到的样本表示估计其在完整 LongBench 上的表现。这样相关性可以提升到0.97。

这意味着什么？在模型评测中，绝对分数当然重要，但很多时候研究者更关心模型之间的相对排名。只要排名高度一致，低成本基准就能成为日常迭代中的快速筛查工具。

论文还给出一个工程侧细节：用于估计完整 LongBench 分数的特征存储只需要约10MB；在笔记本上微调新模型表示向量的GPU时间约0.03秒。相比动辄数十小时的完整评测，这几乎可以忽略。

指标 LongBench MiniLongBench

样本规模近5000个样本 237个样本

任务覆盖 6大任务、21个细分任务保留6大任务、21个细分任务

平均评测成本完整成本约4.5%

与完整评测排名相关基准本身平均Spearman 0.97

适用定位全面评估低成本快速估计

为什么不是简单随机采样

如果只看"删掉95%还能保持强相关"这个结论，很容易误以为随机抽样就足够了。但论文的分析恰恰说明，随机抽样有高方差。它能证明 LongBench 存在冗余，却不能稳定地产生一个可靠基准。

MiniLongBench 的关键在于引入模型表现记录，让样本选择和模型能力差异绑定起来。换句话说，它不是从数据集中随机挑代表，而是寻找那些最能区分模型长上下文能力的样本。

这就像考试命题。减少题量不难，难的是少数题仍然覆盖知识点，并且能区分不同水平的学生。MiniLongBench 做的，就是把这件事从人工经验转成一个可学习、可复现的压缩流程。

局限：压缩不是无损，也需要训练数据

这篇论文也没有把 MiniLongBench 描述成 LongBench 的完全替代品。作者在局限性中提到，构建压缩基准需要来自不同LLM的性能记录，而这些数据在实践中并不总是开源，获取它们仍然需要API成本或GPU资源。

此外，0.97的相关性很高，但不是1.0。这意味着 MiniLongBench 无法保证和 LongBench 在每个模型、每个任务上完全一致。论文也指出，摘要和合成任务上仍有进一步提升空间。

因此，更合理的使用方式可能是：把 MiniLongBench 当作高频、低成本的评测入口，用于快速筛查模型长上下文能力；而完整 LongBench 则继续承担低频、全面、最终确认的角色。

一个更现实的长上下文评测工具

过去一年，长上下文能力正在从"最大窗口长度"转向"真实理解能力"。但如果每次评测都要耗费十几到几十小时，长上下文研究本身就会被评测成本拖慢。

MiniLongBench 的价值，恰好在于把这个重型流程变轻。它不是宣称237个样本可以回答所有问题，而是证明：在长文本数据高度冗余的前提下，经过合适的表示学习和样本选择，评测成本可以被大幅压低，同时保留对模型排名的强刻画能力。

这对研究者和模型团队都很实用。它让长上下文能力不再只适合发布前跑一次"大考"，也可以变成训练、对齐、上下文扩展过程中的日常体检。