每周AI论文速递（250407-250411）

SmolVLM: Redefining small and efficient multimodal models

虽然大型视觉语言模型 (VLMs) 具备卓越性能，但其计算资源需求过高，限制了这类模型在移动和边缘设备上的部署。传统小型 VLMs 通常沿用大型模型的设计方案（例如复杂的图像 Token 化处理），导致 GPU 内存利用率低下，难以满足终端设备的实际应用需求。

我们提出 SmolVLM 系列模型，这是一组专为高效推理设计的紧凑型多模态架构。通过系统性地探索模型结构配置、Token 化策略以及面向低计算开销优化的数据预处理方案，我们确立了关键设计准则，能够在保持极低内存占用的同时，显著提升图像与视频任务的性能表现。

其中最小的 SmolVLM-256M 模型推理时 GPU 内存占用不足 1GB，其性能却超越参数量达 300 倍的 Idefics-80B 模型（尽管存在 18 个月的研发时间差）。而最大规模的 2.2B 参数版本，其性能可媲美 GPU 内存消耗两倍的最先进 VLMs。SmolVLM 不仅适用于静态图像处理，还展现出强大的视频理解能力。

研究结果表明：通过战略性架构优化、高效 Token 化方案以及精细化的训练数据筛选，能够显著提升多模态模型性能，实现显著小型化下的实用节能部署。

OmniSVG: A Unified Scalable Vector Graphics Generation Model

OmniSVG：统一的可缩放矢量图形生成模型

可缩放矢量图形（SVG）凭借其分辨率无关性和可编辑性，成为图形设计中广泛采用的重要图像格式。高质量SVG生成的研究一直备受AIGC领域设计师和研究人员的关注。然而，现有方法要么生成计算成本高昂的非结构化输出，要么仅能生成结构过度简化的单色图标。为了生成高质量且复杂的SVG，我们提出了OmniSVG------一个基于预训练视觉-语言模型（VLM）的端到端多模态SVG生成统一框架。通过将SVG命令和坐标离散化为Token，OmniSVG实现了结构逻辑与底层几何的高效分离，在保留复杂SVG结构表现力的同时提升了训练效率。为推进SVG合成技术的发展，我们还构建了MMSVG-2M数据集，包含200万条带详细标注的多模态SVG资源，并制定了条件SVG生成任务的标准化评估协议。大量实验表明，OmniSVG性能优于现有方法，展现了其融入专业SVG设计工作流程的潜力。

One-Minute Video Generation with Test-Time Training

基于测试时训练的一分钟视频生成

目前 Transformer 仍难以生成一分钟视频，因其自注意力层对长上下文处理效率低下。Mamba 层等替代方案由于隐藏状态表达能力有限，难以处理复杂多场景叙事。我们探索了测试时训练（Test-Time Training, TTT）层，其隐藏状态本身可建模为神经网络，因而具备更强表达能力。将 TTT 层集成至预训练 Transformer 后，模型能够根据文本故事板生成一分钟视频。为验证方法有效性，我们基于《猫和老鼠》动画构建了专用数据集。相比 Mamba~2、门控 DeltaNet 和滑动窗口注意力层等基线方法，TTT 层生成的视频叙事连贯性显著提升，在每种方法 100 段视频的人工评估中领先 34 个 Elo 分。虽然结果令人鼓舞，但生成视频仍存在伪影问题，这可能源于预训练 50 亿参数模型的能力局限。此外，实现效率仍有提升空间。受限于资源，当前实验仅针对一分钟视频，但该方法可扩展至更长视频和更复杂叙事。示例视频、代码及标注数据详见：test-time-training.github.io/video-dit

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

Hogwild 推理：基于并发注意力的并行大语言模型生成

大语言模型 (Large Language Models, LLMs) 已展现出通过高级推理、长文本生成和工具使用来处理复杂任务的能力。这类任务通常需要较长的推理计算时间。人类在解决问题时，常采用协作策略来加速进程，例如将问题分解为子任务、并行探索不同策略等。最新研究表明，LLMs 也能通过显式协作框架 (如投票机制或创建可并行执行的独立子任务) 实现并行运行。但这些框架并非适用于所有任务类型，从而限制了其应用范围。本研究提出了一种新方法：并行运行多个 LLM "工作者"，使其通过并发更新的注意力缓存进行同步，并自主决定最优协作方式。该方法允许各实例针对当前问题制定协作策略，同时通过并发缓存实时感知彼此的部分生成结果。我们将其实现为 Hogwild 推理引擎：该并行 LLM 推理系统使同一模型的多个实例共享注意力缓存并行运行，可实时访问彼此生成的 Token。Hogwild 推理利用旋转位置嵌入 (Rotary Position Embeddings, RoPE) 避免重复计算，同时提升并行硬件利用率。实验表明，现代具备推理能力的 LLMs 可直接支持共享键值缓存推理，无需额外微调。

Kimi-VL Technical Report

Kimi-VL 技术报告

我们推出 Kimi-VL，这是一个高效开源混合专家 (Mixture-of-Experts, MoE) 视觉语言模型 (Vision-Language Model, VLM)，具备先进的多模态推理、长上下文理解和强大 AI 智能体能力，其语言解码器仅激活 2.8B 参数 (Kimi-VL-A3B)。Kimi-VL 在多个挑战性领域展现卓越性能：作为通用 VLM，它在多轮智能体任务 (如 OSWorld) 中表现优异，与旗舰模型性能相当。此外，该模型在多项高难度视觉语言任务中展现出突出能力，包括大学级图像/视频理解、OCR、数学推理及多图像理解。对比评估表明，其性能可与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等前沿高效 VLMs 竞争，并在多个关键领域超越 GPT-4o。Kimi-VL 在长上下文处理和高精度视觉感知方面取得突破：通过 128K 扩展上下文窗口，可高效处理多样化长输入，在 LongVideoBench 和 MMLongBench-Doc 上分别获得 64.5 和 35.1 的优异成绩。其原生分辨率视觉编码器 MoonViT 支持解析超高分辨率视觉输入，在 InfoVQA 和 ScreenSpot-Pro 上分别达到 83.2 和 34.5 的分数，同时保持常规任务的低计算成本。基于 Kimi-VL，我们进一步开发了长程推理变体 Kimi-VL-Thinking。该模型通过长思维链 (Chain-of-Thought, CoT) 监督微调 (Supervised Fine-Tuning, SFT) 和强化学习 (Reinforcement Learning, RL) 训练，展现出强大的长程推理能力，在 MMMU、MathVision 和 MathVista 上分别取得 61.7、36.8 和 71.3 的分数，同时维持 2.8B 激活参数的紧凑规模，为高效多模态推理模型树立了新标杆。代码和模型已开源：github.com/MoonshotAI/...

SkywoSkywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought

Skywork R1V：基于思维链的多模态推理开创者

我们提出Skywork R1V------一种通过高效多模态迁移方法将R1系列大语言模型(LLM)扩展至视觉模态的多模态推理模型。该模型采用轻量级视觉投影器，无须重新训练基础语言模型或视觉编码器即可实现无缝多模态适配。为强化视觉-文本对齐，我们提出混合优化策略，结合迭代监督微调(SFT)与组相对策略优化(GRPO)，显著提高了跨模态融合效率。此外，我们开发了自适应长度的思维链蒸馏方法用于推理数据生成，可动态优化推理链长度，从而提升推理效率并避免推理过程中的过度思考。实验表明，仅380亿参数的Skywork R1V具备强大竞争力：在MMMU基准测试中获得69.0分，MathVista测试中获得67.5分；同时保持优异的文本推理能力，AIME得分72.0，MATH500得分94.0。Skywork R1V模型权重已开源以促进研究透明度和可复现性。

Rethinking Reflection in Pre-Training

语言模型对自身推理过程进行反思的能力，是解决复杂问题的关键优势所在。尽管近期研究多集中于该能力在强化学习阶段的发展，但我们发现这种能力实际上在更早的预训练阶段就已开始显现。为研究这一现象，我们在思维链中植入刻意错误（deliberate errors），测试模型能否通过识别和纠正这些错误最终得出正确答案。通过分析预训练不同阶段的性能变化，我们观察到这种自我修正能力在早期即出现，并随着训练持续提升。例如，经过4万亿token预训练的OLMo2-7B模型，在我们设计的六项自反思任务中均表现出自我修正特性。

DDT: Decoupled Diffusion Transformer

扩散 Transformer 虽然需要更长的训练周期和大量推理步骤，但其生成质量已得到显著提升。在每一步去噪过程中，扩散 Transformer 会对含噪输入进行编码以提取低频语义成分，随后使用相同模块解码高频成分。这种机制导致了一个固有优化矛盾：低频语义编码需要抑制高频成分，从而在语义编码与高频解码之间形成冲突。为解决这一问题，我们提出了一种新型的 \textbf{\color{ddt}解耦扩散 Transformer}~(\textbf{\color{ddt}DDT})，其采用解耦架构设计，包含专用于语义提取的条件编码器和独立的速度解码器。实验表明，随着模型规模扩大，更强的编码器能显著提升性能。在 ImageNet <math xmlns="http://www.w3.org/1998/Math/MathML"> 256 × 256 256\times256 </math>256×256 数据集上，我们的 DDT-XL/2 以 1.31 FID 刷新了当前最优性能（训练收敛速度比此前扩散 Transformer 快近 4 倍）；在 ImageNet <math xmlns="http://www.w3.org/1998/Math/MathML"> 512 × 512 512\times512 </math>512×512 数据集上，DDT-XL/2 进一步将 FID 提升至 1.28。此外，该解耦架构还具备额外优势：通过允许相邻去噪步骤共享自条件，显著提升了推理速度。为最小化性能损失，我们提出了一种基于统计动态规划的新方法，用于确定最优共享策略。

An Empirical Study of GPT-4o Image Generation Capabilities

GPT-4o 图像生成能力的实证研究

图像生成技术经历了快速发展，从早期的 GAN (Generative Adversarial Network) 方法到扩散模型，再到近期旨在统一理解与生成任务的生成架构。以 GPT-4o 为代表的最新进展，已证实了高保真多模态生成的可行性，但其架构设计细节仍未公开。这引发了新的思考：图像与文本生成是否已成功整合为统一框架？本研究对 GPT-4o 的图像生成能力展开实证分析，并与主流开源及商业模型进行对比评测。评估涵盖四大类任务（文本到图像、图像到图像、图像到 3D 及图像到 X 生成），包含 20 余项具体任务。通过系统分析 GPT-4o 在不同场景下的优势与局限，我们将其置于生成模型的技术发展脉络中进行定位，进而为未来统一生成模型指明发展方向，重点探讨架构设计与数据扩展的关键作用。

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

OLMoTrace：将语言模型输出追溯至数万亿训练 Token

我们提出OLMoTrace，这是首个能够实时将语言模型输出追溯至其完整、数万亿Token规模训练数据的系统。OLMoTrace可识别并展示语言模型输出片段与训练文本语料库文档之间的逐字匹配。该系统基于扩展版infini-gram（Liu等人，2024）构建，可在数秒内返回追溯结果。通过训练数据的视角，OLMoTrace帮助用户理解语言模型的行为特征。我们演示了该系统在事实核查、模型幻觉（hallucination）以及语言模型创造力分析中的应用场景。OLMoTrace已公开发布并完全开源。

C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing

C3PO：面向测试时专家混合优化的关键层核心专家协同路径方法

专家混合 (Mixture-of-Experts, MoE) 大语言模型存在显著的专家路径优化不足问题。研究发现，预训练获得的原始专家选择方案会导致 10-20% 的潜在准确率损失。基于此，我们提出了一类创新的测试时优化方法，可针对每个测试样本动态调整（即"重混合"）各层专家的权重分配。由于测试样本的真实标签未知，我们通过优化基于参考样本集中"成功样本邻域"构建的代理目标函数来实现这一目标。具体提出了三种代理目标算法：模式发现法、核回归法以及相似参考样本/任务的平均损失法。为降低全路径优化成本，该方法仅针对关键层的核心专家混合权重进行优化，在保持性能相当的同时大幅降低计算开销，由此形成"关键层核心专家协同路径优化 (C3PO)"框架。我们在两个最新 MoE 大语言模型和六个主流基准测试上验证了 C3PO，结果显示其能稳定提升基础模型 7-15% 的准确率，显著优于上下文学习、提示/前缀微调等主流测试时学习方法。此外，C3PO 使仅激活 1-3B 参数的 MoE 模型性能超越 7-9B 参数的常规大语言模型，进一步突显了 MoE 的能效优势。详尽的消融实验还为 MoE 的测试时优化提供了新的理论洞见。