[NeurIPS‘25] AI infra / ML sys 论文（解析）合集

概要

NeurIPS 2025 于 2025 年 12 月 2--7 日在圣迭戈会展中心举办，并设置墨西哥城等地的平行活动；大会继续覆盖从机器学习方法论到跨学科应用的全谱系议题，同时延续数据集与基准等分轨传统与政策更新（如 LLM 使用指引）。NeurIPS 2025 主会投稿 21,575 篇，接收 5,290 篇，录用率约 24.5%；海报 4,525、Spotlight 688、Oral 77。从已上线的论文来看，今年的系统与基础设施类成果密集：面向大规模训练的并行与调度、拓扑感知通信；面向推理的 Serving/SLO 管理、推测解码与 KV-cache 体系；以及编译器/内核共设计与自动调优，形成"更低延迟、更高吞吐、更优能效、更强可运维"的清晰趋势。

San Diego Convention Center and Mexico City

在模型规模持续扩张、上下文长度与并发访问不断攀升的当下，NeurIPS 2025 的诸多亮点都直接指向"系统边界"的再定义：训练侧的调度/并行与拓扑感知通信（如 FlowMoE、StarTrail）回答了如何把 1000+ GPU 的算力变成"有效吞吐"；推理侧的 Serving/SLO、推测解码与 KV-cache 压缩/复用（如 HyGen、Yggdrasil）则回答了如何在相同资源下"生成更多、更快、更稳"。这些工作共同勾勒出两条分析主线：

AI infrastructure（训练/通信/资源编排）------以并行维度设计、通信对齐、系统级调度与能效约束为核心，面向端到端训练吞吐与成本最优化。
ML systems（推理/服务化/编译器与运行时）------以时延与尾延迟控制、推理时计算扩展、缓存与内存足迹治理、编译器/内核共设为核心，面向高并发、低成本的在线与离线服务。

接下来，把今年相关论文（已上线的论文）逐一展开泛读（一张图，一句话）。

论文列表

Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage

System overview of Teraio

这篇论文提出并实现了一个用于大模型训练的"按生命周期感知（lifetime-aware）张量换入/换出"框架 Teraio，核心目的是用廉价的PCIe SSD + GPUDirect Storage 扩展GPU显存、在尽量不牺牲吞吐的前提下降本增效。

Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful

Small batch sizes are robust to hyperparameter misspecification

小批量（甚至 batch size = 1）训练大语言模型完全可行，而且往往更稳、更省显存，并不需要梯度累积或复杂优化器。作者系统给出一套在小批量下调参的原则，并用从 30M 到 1.3B 参数的实验验证。

DP-LLM: Runtime Model Adaptation with Dynamic Layer-wise Precision Assignment

Overview of DP-LLM

这篇论文提出 DP-LLM：一种在推理时按层动态分配量化精度的机制，用来在终端/本地设备上根据实时的延迟/精度约束自适应运行 LLM。核心思想是：不同层对量化误差的敏感度会随解码迭代（逐 token）动态变化，因此不应把每一层的比特数固定，而应在每一步为每一层选择"高比特 or 低比特"。

PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation

a) The inference process of LVLMs, (b) The overview of PrefixKV.

作者提出 PrefixKV：把"每层留多少 KV"统一改写成"全局前缀配置"搜索问题（把每层 KV 的重要度（用注意力得分聚合而成）排序成"优先级序列"），在给定总压缩预算下，按层自适应地保留各自最有信息量的前缀 KV，从而以相同的显存预算换来更少的精度损失与更高的生成质量。

Bag of Tricks for Inference-time Computation of LLM Reasoning

Overview of Decoding Inference-Time Computation for LLM Reasoning

作者把常见的 ITC （Inference-time Computation）方法（Best-of-N、Step-level Best-of-N、Self-Consistency、Beam Search、MCTS、Self-Refine）放到同一套设置里，在八类推理任务上系统做了上千组对比（累计 >2万 A100-80G GPU 小时），重点不改模型也不再训练，而是通过采样与选择环节的"小技巧"获得更高正确率/Pass@1。

Torch-Uncertainty: A Deep Learning Framework for Uncertainty Quantification

Overview of Torch-Uncertainty's usage for model training and evaluation

对 Torch-Uncertainty 的介绍与评测：一个基于 PyTorch + Lightning 的深度学习不确定性量化（UQ，Uncertainty Quantification）框架，主打"统一、模块化、以评测为中心"。

Efficient Large Language Model Inference with Neural Block Linearization

Illustration of Neural Block Linearization (NBL)

这篇提出一种不改训练、直接替换算子来加速 LLM 推理的方法------Neural Block Linearization (NBL)。做法是：对每一层自注意力，用校准数据收集其输入 X 和输出 Y，然后用线性最小均方估计（LMMSE，Linear Minimum Mean Squared Error ）闭式解学出一个线性层 Y^=WX+b 来近似原注意力；再用典型相关分析（CCA，Canonical Correlation Analysis ）给出一个可计算的线性化误差上界，据此只替换那些最"线性"、误差上界最低的层。不需要微调或再训练。

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

Dynamic-Length Float for compressing BFloat16 weights of LLMs losslessly down to 11 bits

主要提出一种无损压缩格式 DFloat11，用来把 BF16 （Brain Float16）权重按信息熵重新编码，在不改变任何推理结果（bit-exact）的前提下，把大模型/扩散模型的体积压到约 70%，并配套了面向 GPU 的高效在线解压内核以支撑推理。

LittleBit: Ultra Low-Bit Quantization via Latent Factorization

Comparison of a standard Transformer layer (left) and the LittleBit architecture (right)

提出 LittleBit：把 LLM 的线性层先做低秩分解W≈UV⊤，再把因子 U、V 二值化（±1），并配上三重可学习缩放（行 h、列 g、潜在秩维度 ℓ：在把权重做低秩二值分解之后，分别在三个互相独立的轴上放入可学习的尺度参数，用来补偿二值化带来的幅度信息丢失。），实现亚1比特（甚至 0.1 BPW）的极限量化，同时尽量稳住精度。

Quartet: Native FP4 Training Can Be Optimal for Large Language Models

Analysis of Quartet

Quartet 证明了在 Blackwell 上全流程 FP4 训练不仅能跑、还常常是精度-速度最优；并用一套低精度Scaling law把"前向误差 vs 反向偏差"的权衡量化清楚，给出何时选 FP4/FP8 的可计算判据与高效实现。

Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs

Architecture overview of Arnold

在上万卡规模（9600+ GPU）上，如何把大模型预训练的通信模式与数据中心拓扑"对齐"，用更聪明的调度拿到真实端到端加速。作者提出了一个面向 LLM 预训练作业（LPJ）的拓扑感知调度系统 Arnold，在生产训练中把吞吐提升到 +10.6%，并在仿真里把通信组的"跨机架/跨小仓（minipod）扩散度"最多降到 1.67×。

ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training

ACCO with a slow and a fast worker running in parallel, showing no idle time on both and hiding communications

提出 ACCO（Accumulate while you COmmunicate）：一种在分片优化器（如 ZeRO-1/FSDP）场景下，把梯度通信与计算重叠起来、同时不牺牲收敛的分布式训练方法，专为大模型（LLM）设计。

Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism

Illustration of the computation process of a diffusion model

提出 ParaStep：一种面向扩散/Flow Matching 生成模型推理的"复用-再预测（reuse-then-predict）"并行化方法。它利用相邻降噪步之间噪声/样本高度相似这一事实，把最耗时的"噪声预测器"前向在多卡之间按时间步并行，且每步只通信一次（传噪声与样本），显著降低通信开销，在低带宽（PCIe Gen3）也能稳定加速。

HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location

HyGen overview

提出 HyGen：一个让在线（低时延）与离线（高吞吐）两类 LLM 请求可以同机共置的推理服务系统，在不违反在线请求时延 SLO的前提下，把离线任务"弹性填充"进空隙里，从而显著提升整体吞吐。

Compiler-R1: Towards Agentic Compiler Auto-tuning with Reinforcement Learning

Compiler-R1

提出 Compiler-R1：一个用强化学习（RL）训练的大语言模型代理，来做 LLVM 编译优化序列（pass sequence）自动调参。它解决了以往"只有SFT、缺少高质量推理数据、与编译环境互动不足"的痛点。Compiler-R1 把"LLM+工具"的交互式编译调参做成可强化学习的问题，在多套基准上显著降IR指令数、提效率、强泛化，证明 RL 驱动的代理式编译自动调参切实可行。

Compiler Optimization via LLM Reasoning for Efficient Model Serving

optimization workflow

把LLM 的"推理/规划能力"融进编译器自动优化里，做成一个无需微调的大模型＋MCTS（蒙特卡洛树搜索）的"推理式编译框架"。目标是给模型服务（LLM/扩散等）的算子/层自动找出高效的编译变换序列（如 tile、fusion、vectorization、并行化、布局变换），在很少的采样预算下就拿到可观提速。

KEYDIFF: Key Similarity-Based KV Cache Eviction for Long-Context LLM Inference in Resource-Constrained Environments

An overview of KEYDIFF

提出 KEYDIFF：一种不看注意力分数、只用"Key 向量相似度"来做 KV 缓存淘汰的长上下文推理方法（用"key 几何多样性"替代"注意力重权"做淘汰，在严格内存上限与分块预填充下仍能保住关键信息，兼顾精度与时延。），专为资源受限场景（如分块预填充、边端设备）设计。

KVLINK: Accelerating Large Language Models via Efficient KV Cache Reuse

KV Cache Reuse

提出 KVLINK：把文档的 KV 缓存预先独立编码并复用，在 RAG、多段上下文等场景里避免对相同文档反复预填充；推理时把命中的文档 KV 直接拼接，只需少量额外计算即可生成答案。

Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference

From Uniform to Adaptive Budget Allocation

提出 Ada-KV：在做 KV 缓存淘汰（Top-k/保留最重要的KV）时，不再给每个注意力头均分预算，而是按头自适应分配预算，从而在同样的总缓存上限下把精度损失更小、生成质量更高。

Inference-Time Hyper-Scaling with KV Cache Compression

Dynamic Memory Sparsification (DMS)

提出"推理时超扩展（inference-time hyper-scaling）"：通过压缩/稀疏化 KV 缓存，在相同算力与显存预算下让模型"想得更久或并行更多条推理链"，从而把推理正确率再往上拧。为此作者给出一个轻量可训练的方法 DMS（Dynamic Memory Sparsification）。

MR. Video: "MapReduce" is the Principle for Long Video Understanding

Overview. MR. Video validates the effectiveness of "MapReduce" principle with an LLM agent framework

这篇提出用"MapReduce 原理"做长视频理解的代理式框架 MR. Video：先把长视频切成许多短片段各自感知（Map），再把所有片段的信息全局汇总推理（Reduce），从而兼顾局部细节与全局上下文，避开 VLM 的上下文长度瓶颈，也比"逐轮检索关键片段"的视频代理更易并行、更全面。

StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant

Overview of StreamBridge

提出 StreamBridge：把离线式 Video-LLM（StreamBridge=缓冲记忆 + 递减压缩 + 外置激活器）无缝改造成"可串流、可多轮、会主动说话"的视频助理的通用框架，并配套了面向串流理解的大规模数据集 Stream-IT。

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

Instantiation Overview. Multiverse co-design data (Multiverse Curator), algorithm (Multiverse Attention),and system (Multiverse Engine) to enable real-world reasoning abilities through a rapid and seamless shift from AR-LLMs.

提出 Multiverse：一种把 MapReduce 思想内化语言模型（把"并行思考"的权力交回给模型本身；让 LLM 在生成时自适应地并行拆解与无损合并，在不牺牲推理质量的同时获得更好的时延---性能扩展性。）、支持原生并行生成的新框架。模型在一次生成里由模型自己决定何时"拆分---并行---合并"，从而在不丢失中间状态的前提下，加速长链式推理。

Tail-Optimized Caching for LLM Inference

Difference between LRU and T-LRU

如何用更聪明的提示/前缀缓存（prompt/KV cache）策略降低 LLM 推理的"尾部时延"（tail latency）。作者提出 Tail-Optimized LRU（T-LRU）：在常用 LRU 基础上加两行逻辑，优先从对下一轮时延无益的会话里"免费"裁掉多余的 KV，然后再按 LRU 逐出，目标是降低 P90/P95 的 TTFT。

MPCache: MPC-Friendly KV Cache Eviction for Efficient Private Large Language Model Inference

Overview of our proposed MPCache

把 KV 缓存淘汰（KV cache eviction）专门改造成"适合 MPC 私有推理"的版本，框架叫 MPCache。它面向用安全多方计算（MPC，multi-party computation）做 LLM 推理时的超高时延与通信开销，提出"一次静态淘汰 + 步进式动态挑选"的组合，并用多项"MPC 友好"技巧把常见瓶颈（相似度计算、top-k、按索引聚簇取数）大幅降开销。