当模型开始“记住”评测，如何用动态数据对抗污染？（上篇）

随着大模型能力的持续跃升，一个不容忽视的现象逐渐显现：越来越多的评测，正在被模型"记住"。无论是安全评测、通用能力评测，还是面向科学推理的专业基准，一次性构建的静态数据集都难以在模型快速迭代的背景下长期保持区分力。模型可能并非真正理解了问题，而是学会了如何应对固定测试。

因此，来自上海人工智能实验室的研究团队尝试从"数据层"出发，探索一种能够持续更新、对抗数据污染的动态评测路径。

安全评测：从固定样本到可持续生成

在安全评测中，数据污染始终是一项需要重点关注的潜在风险。若模型能够识别或记忆固定测试样本，其安全能力往往会被系统性高估。

SDEval 从数据形态扰动的角度提出**"安全动态评测"机制** 。通过文本动态、图像动态与文本--图像动态三类策略 ，SDEval 能够从原始安全基准中自动生成新样本，并可控地调整评测分布与复杂度。实验表明，无论是文本动态注入图像，还是图像动态注入文本，均会引发显著安全风险，暴露出多模态模型在混合内容下的脆弱性。通过持续生成新样本，SDEval 从机制上缓解了评测集老化与污染问题。

论文标题：

SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models

论文链接：

https://arxiv.org/abs/2508.06142

Daily Benchmark链接：

https://hub.opencompass.org.cn/daily-benchmark-detail/2508.06142

VLSafetyBencher 进一步将安全评测推向自动化。该工作提出首个面向 LVLM 的多智能体安全基准构建系统，由数据预处理、生成、增强与筛选四类智能体协同完成样本构建。相比人工构建方式，该系统显著降低了时间与人力成本，并支持快速动态更新，使安全评测能够及时覆盖新兴风险。实验显示，该基准具备极强的模型区分能力，不同模型之间的安全通过率差距可达 70%。

论文标题：

Automated Safety Benchmarking: A Multi-agent Pipeline for LVLMs

论文链接：

https://arxiv.org/abs/2601.19507

Daily Benchmark链接：

https://hub.opencompass.org.cn/daily-benchmark-detail/2601.19507

SafetyFlow 则将自动化这一思路扩展为完整的"智能体流水线"。通过七个智能体构成的自动化流程，SafetyFlow 能够在几乎无人工干预的情况下，仅用四天时间自动构建一个全面的安全评估基准，并将人类专家经验嵌入可控的自动化流程中，实现效率与质量的平衡。

论文标题：

SafetyFlow: An Agent-Flow System for Automated LLM Safety Benchmarking

论文链接：

https://arxiv.org/abs/2508.15526v1

Daily Benchmark链接：

https://hub.opencompass.org.cn/benchmark-detail/2508.15526

能力与科学评测：用"变化"对抗评测饱和

随着模型能力持续增强，通用能力与科学评测同样面临评测集迅速饱和的问题。当模型逐渐适应固定题型，评测的区分力将不可避免地下降。

针对大模型多轮指令遵循与长程记忆能力数据污染及评测集饱和风险，研究团队提出Benchmarking Evolving Framework ，通过主题、指令、约束三级动态框架，自动化合成多轮对话中的用户指令，及其对应回复评价指标，同时引入关注长期用户体验的有效轮数、鲁棒性与恢复性等指标。随着模型能力的提升，该自动化框架支持更长轮次评测数据集的自动化生成与模型评价，保证了评测集的长期生命力与抗数据污染能力。

论文标题：

One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework

论文链接：

https://arxiv.org/abs/2511.03508

Daily Benchmark链接：

https://hub.opencompass.org.cn/benchmark-detail/2511.03508

针对科学评测构建成本高、扩展性差的问题，Q-Mirror 通过规划器、评估器与控制器的闭环协同，将纯文本科学问答资源自动转化为高质量多模态问答样本 。一方面，评测集可随文本题库演化而低成本扩展；另一方面，通过强制引入视觉依赖并重构文本描述，形成跨模态扰动机制，使模型难以依赖静态记忆作答，从而动态对抗数据污染。在"生成-评估-修正"的自动化闭环下，Q-Mirror 能持续产出符合高质量标准的新样本，从而构建具备长期有效性、可扩展性与抗饱和性的动态评测流程。

论文标题：

Q-Mirror: Unlocking the Multi-Modal Potential of Scientific Text-Only QA Pairs

论文链接：

https://arxiv.org/abs/2509.24297

Daily Benchmark链接：

https://hub.opencompass.org.cn/benchmark-detail/2509.24297

针对科学基准存在的数据污染与评测低效问题，EESE 提出"持续进化的科学考试 "机制。基于一个包含 10 万余道专家级问题的超大题库，EESE 通过周期性动态采样生成轻量化评测集，并借助多路径精炼策略，将简单问题不断转化为高难度推理题。实验表明，这种动态演进方式不仅显著降低评测成本，也更真实地揭示了模型在科学推理能力上与人类专家之间的差距。

论文标题：

The Ever-Evolving Science Exam

论文链接：

https://arxiv.org/pdf/2507.16514

Daily Benchmark链接：

https://hub.opencompass.org.cn/benchmark-detail/2507.16514

这些工作表明，评测不一定要无限扩张规模，但必须能够持续保持变化。这种变化主要体现在评测内容与结构的动态演化上，本质上是一种数据构建与使用方法层面的"主动设计"。

动态数据更新解决了一个关键问题：**我们在"测什么"。**但仅有动态数据仍然不够。即便评测样本可以持续更新，如果评测方式仍停留在"做题---打分---排名"的静态范式，模型的真实能力依然可能被误判。

在下篇中，我们将进一步讨论：当评测过程本身开始变化，会发生什么？