每周AI论文速递（260323-260327）

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

MinerU-Diffusion 是一个基于扩散的框架，它采用并行扩散去噪替代自回归解码来进行文档光学字符识别 (OCR)，从而提升了鲁棒性和解码速度。光学字符识别 (OCR) 已从行级转录发展到结构化文档解析，这要求模型能够重建包含布局、表格和公式的长序列内容。尽管视觉语言模型近期取得了进展，但大多数现有系统仍依赖自回归解码，这会导致顺序延迟，并在长文档中加剧错误传播。在本工作中，我们从逆向渲染的角度重新审视文档OCR，认为从左到右的因果生成是文本序列化表示带来的副产品，而非该任务的内在属性。基于这一见解，我们提出了 MinerU-Diffusion，这是一个统一的基于扩散的框架，它在视觉条件约束下，使用并行扩散去噪取代了自回归顺序解码。MinerU-Diffusion 采用了块级扩散解码器以及不确定性驱动的课程学习策略，以实现稳定的训练和高效的长序列推理。广泛的实验结果表明，与自回归基线相比，MinerU-Diffusion 能持续提升鲁棒性，同时解码速度最高可提升 3.2 倍。在提出的语义洗牌基准 (Semantic Shuffle benchmark) 上的评估进一步证实，该方法降低了对语言先验的依赖，并具备了更强的视觉OCR能力。

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Omni-WorldBench：迈向以交互为核心的世界模型全面评估

基于视频的世界模型主要沿着两大范式发展：视频生成与 3D 重建。然而，现有评估基准要么仅局限于评估生成模型的视觉保真度与文本-视频对齐度，要么依赖本质上忽略时间动态的静态 3D 重建指标。我们认为，世界建模的未来在于 4D 生成，即对空间结构和时间演化进行联合建模。在此范式中，核心能力是交互响应：即模型能否忠实反映交互行为如何驱动状态在时空中的转换。但目前尚无基准能系统评估这一关键维度。

Omni-WorldBench 旨在解决对交互式 4D 世界模型缺乏全面评估的问题，它引入了一个基准，用于评估多样场景下的时间动态与因果交互效应。具体而言，我们提出了 Omni-WorldBench，这是一个专门为评估 4D 环境下世界模型的交互响应能力而设计的综合性基准。它包含两个关键部分：Omni-WorldSuite，一个涵盖不同交互层级与场景类型的系统性提示词集；以及 Omni-Metrics，一个基于智能体的评估框架，通过量化交互行为对最终结果及中间状态演化轨迹的因果影响，来评估世界建模能力。

我们对涵盖多种范式的 18 个代表性世界模型进行了广泛评估。分析结果揭示了当前世界模型在交互响应方面存在显著局限，为未来研究提供了切实可行的见解。Omni-WorldBench 将公开发布，以推动交互式 4D 世界建模领域的发展。

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

速度源于简约：用于快速音视频生成的单流架构

daVinci-MagiHuman 是一个开源的音视频生成模型，它通过单流 Transformer 架构同步处理文本、视频和音频，能够生成高质量的人本内容，并具备高效的推理能力。AI 生成摘要如下：我们提出了 daVinci-MagiHuman，一个面向人本生成的开源音视频生成基础模型。该模型采用单流 Transformer 联合生成同步的视频和音频，该架构仅通过自注意力机制，在一个统一的 Token 序列中处理文本、视频和音频数据。这种单流设计避免了多流或交叉注意力架构的复杂性，同时易于利用标准的训练和推理基础设施进行优化。该模型在以人为中心的场景中表现尤为出色，能够生成富有表现力的面部表演、自然的语音与表情协调、逼真的身体运动以及精确的音视频同步。它支持中文（普通话和粤语）、英语、日语、韩语、德语和法语的多语言口语生成。为实现高效推理，我们将单流主干网络与模型蒸馏、潜在空间超分辨率以及 Turbo VAE 解码器相结合，从而在单个 H100 GPU 上仅需 2 秒即可生成一段 5 秒长的 256p 分辨率视频。在自动评估方面，daVinci-MagiHuman 在领先的开源模型中取得了最高的视觉质量和文本对齐度，同时其语音可懂度的词错误率最低（14.60%）。在基于 2000 次比较的成对人工评估中，该模型对阵 Ovi 1.1 和 LTX 2.3 的胜率分别为 80.0% 和 60.9%。我们开源了完整的模型堆栈，包括基础模型、蒸馏模型、超分辨率模型以及推理代码库。

PixelSmile: Toward Fine-Grained Facial Expression Editing

PixelSmile：迈向细粒度面部表情编辑

本文提出了一个名为 PixelSmile 的扩散模型框架。该框架通过对称联合训练与对比学习，分离了面部表情的语义表征，从而能够进行精确、可控、细粒度的表情编辑，同时有效保持人物身份信息。细粒度面部表情编辑长期受限于表情语义的内在重叠问题。为此，我们构建了带有连续情感标注的 Flex 面部表情 (FFE) 数据集，并设立了 FFE-Bench 评估基准，用以量化评估结构混淆度、编辑准确率、线性可控性以及表情编辑与身份保持之间的权衡关系。我们提出的 PixelSmile 框架，采用完全对称的联合训练策略来解耦表情语义。它结合了强度监督与对比学习，能够生成表现力更强、区分度更高的表情，并通过在文本潜在空间中进行插值，实现了精确且稳定的线性表情控制。大量实验表明，PixelSmile 在语义解耦和身份保持方面均表现优异，证实了其在实现连续、可控、细粒度表情编辑方面的有效性，并且能够自然地实现平滑的表情过渡与融合。

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Intern-S1-Pro：万亿规模的科学多模态基础模型

Intern-S1-Pro 是一个拥有万亿参数的科学多模态基础模型。通过集成先进的智能体 (Agent) 功能并精通多个科学领域的专门任务，该模型显著提升了其通用能力与科学能力。本文介绍首个万亿参数的科学多模态基础模型 Intern-S1-Pro。扩展到前所未有的规模，使得该模型在通用领域和科学领域均实现了全面增强。它不仅具备更强大的推理与图文理解能力，还通过先进的智能体能力对其智能进行了扩展。同时，其科学专业知识也得到极大拓展，能够精通化学、材料、生命科学、地球科学等关键科学领域的超过 100 项专门任务。实现如此巨大的模型规模，得益于 XTuner 和 LMDeploy 提供的强大基础设施支持。这些支持使得在万亿参数级别进行高效的强化学习 (Reinforcement Learning, RL) 训练成为可能，并确保了训练与推理阶段严格的精度一致性。通过无缝整合这些技术进步，Intern-S1-Pro 进一步强化了通用智能与专门化智能的融合，扮演着"可专门化的通才" (Specializable Generalist) 的角色。该模型在通用能力方面位居开源模型的顶级行列，同时在专门科学任务的深度上超越了诸多专有模型。

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Astrolabe：引导前向过程强化学习用于蒸馏自回归视频模型

Astrolabe 是一个专为蒸馏自回归视频模型设计的高效在线强化学习 (RL) 框架，它通过前向过程 RL 公式和具有多奖励目标的流式训练来提升生成质量。摘要：蒸馏自回归 (AR) 视频模型能够实现高效的流式生成，但其输出常与人类视觉偏好存在偏差。现有的 RL 框架并不直接适用于此类架构，通常需要昂贵的重新蒸馏或依赖求解器的反向过程优化，从而带来显著的内存与计算开销。我们提出了 Astrolabe，一个为蒸馏 AR 模型量身定制的高效在线 RL 框架。为克服现有瓶颈，我们引入了一种基于负感知微调 (negative-aware fine-tuning) 的前向过程 RL 公式。该方法通过在推理末端直接对比正负样本，建立起一个隐式的策略改进方向，而无需进行反向过程展开。为了将这种对齐能力扩展到长视频，我们提出了一种流式训练方案，该方案通过滚动的 KV 缓存逐步生成序列，并仅对局部片段窗口应用 RL 更新，同时以前文为条件来保证长程连贯性。最后，为缓解奖励黑客 (reward hacking) 问题，我们集成了一个多奖励目标，该目标通过不确定性感知的选择性正则化与动态参考更新来保持稳定。大量实验表明，我们的方法能持续提升多种蒸馏 AR 视频模型的生成质量，从而提供一个稳健且可扩展的对齐解决方案。

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

HopChain：用于可泛化视觉语言推理的多跳数据合成

HopChain 是一个可扩展的框架，用于生成多跳视觉语言推理数据，以增强视觉语言模型 (VLM) 在各种基准测试中的长链推理能力。摘要中提到的 VLM 虽然展现出强大的多模态能力，但在细粒度的视觉语言推理任务上仍面临挑战。我们发现，长链思维链 (CoT) 推理会暴露出多种错误模式，包括感知、推理、知识和幻觉错误，这些错误可能在中间步骤中累积放大。然而，目前大多数用于 RLVR 的视觉语言数据并不包含全程依赖视觉证据的复杂推理链，导致这些弱点难以被充分暴露。为此，我们提出了 HopChain，这是一个专门为 VLM 的 RLVR 训练而设计的、可扩展的多跳视觉语言推理数据合成框架。每个合成的多跳查询构成一个逻辑上相互依赖的、基于具体实例的推理跳链：较早的跳步为后续跳步建立所需的实例、集合或条件，而最终答案则是一个具体且明确的数值，便于进行可验证的奖励计算。我们将 HopChain 合成的多跳数据添加到用于训练 Qwen3.5-35B-A3B 和 Qwen3.5-397B-A17B 的原始 RLVR 数据中，并在涵盖 STEM 与谜题、通用视觉问答 (VQA)、文本识别与文档理解以及视频理解四大类的 24 个基准测试上，与仅使用原始 RLVR 数据的训练方法进行比较。尽管这些多跳数据并非针对任何特定基准测试合成，但其加入使得两个模型在 24 个基准测试中的 20 个上取得了性能提升，这表明其增益具有广泛性和可泛化性。为了证明完整链式查询的重要性，我们将其替换为半多跳或单跳的变体，结果导致 24 个基准测试的平均准确率分别下降了 5.3 和 7.0 个百分点。多跳训练还显著增强了长链 CoT 视觉语言推理能力，在超长链 CoT 场景下，性能提升峰值超过 50 个准确率点。这些实验证明，HopChain 是一个有效且可扩展的框架，能够通过合成多跳数据来提升视觉语言推理的可泛化性能。

OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

OpenResearcher：用于生成长程深度研究轨迹的完全开放流程

OpenResearcher 提出了一种可复现的流程，利用离线搜索环境和合成轨迹来训练深度研究智能体，并在基准任务上取得了更高的准确率。训练深度研究智能体需要能够交错进行搜索、证据聚合和多步推理的长程轨迹。然而，现有的数据收集流程通常依赖于专有的 Web API，这使得大规模轨迹合成成本高昂、不稳定且难以复现。我们提出了 OpenResearcher，这是一个可复现的流程，它将一次性的语料库自举过程与多轮轨迹合成过程解耦，并完全离线地执行搜索-浏览循环。该循环基于一个包含 1500 万文档的语料库，通过三个明确的浏览器原语实现：搜索、打开和查找。我们使用 GPT-OSS-120B 作为教师模型，合成了超过 9.7 万条轨迹，其中包括大量工具调用次数超过 100 次的长程尾部轨迹。在这些轨迹上对 30B-A3B 骨干模型进行监督微调后，在 BrowseComp-Plus 基准上达到了 54.8% 的准确率，相比基础模型提升了 34.0 个百分点，同时在 BrowseComp、GAIA 和 xbench-DeepSearch 基准上保持了竞争力。由于该环境是离线且完全可监控的，它还支持进行受控分析。我们的研究通过该分析，揭示了深度研究流程设计的一些实用见解，包括数据过滤策略、智能体配置选择，以及检索成功率与最终答案准确率之间的关系。我们在 github.com/TIGER-AI-La... 发布了该流程、合成轨迹、模型检查点以及离线搜索环境。

CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

CUA-Suite：用于计算机使用智能体的大规模人工标注视频演示

CUA-Suite 为计算机使用智能体 (Computer-Use Agents, CUAs) 引入了一个大规模生态系统，包含专家视频演示和标注，提供连续的屏幕录制与详细的推理标注，旨在提升桌面自动化能力。摘要（由 AI 生成）：计算机使用智能体 (CUAs) 在自动化复杂桌面工作流方面前景广阔，但通用智能体的发展受限于连续、高质量人类演示视频的稀缺。近期研究强调，连续视频（而非稀疏的屏幕截图）是扩展此类智能体规模所缺失的关键要素。然而，现有最大的开放数据集 ScaleCUA 仅包含 200 万张屏幕截图，折合视频时长不足 20 小时。为突破此瓶颈，我们提出了 CUA-Suite，这是一个面向专业桌面计算机使用智能体的大规模生态系统，包含专家视频演示和详尽的标注。其核心是 VideoCUA，它提供了涵盖 87 个不同应用程序的大约 10,000 个人类演示任务，包含 30 fps 的连续屏幕录制、光标运动轨迹以及多层次推理标注，总计约 55 小时、600 万帧的专家视频。与仅捕获最终点击坐标的稀疏数据集不同，这些连续视频流完整保留了人机交互的时间动态特性，构成了一个信息超集，可无损转换为现有智能体框架所需的格式。CUA-Suite 还提供了两项互补资源：UI-Vision，一个用于严格评估 CUA 基础（环境感知）与规划能力的基准测试集；以及 GroundCUA，一个大规模基础定位数据集，包含 5.6 万张标注截图和超过 360 万个 UI 元素标注。初步评估表明，当前的基础动作模型在处理专业桌面应用时表现不佳（任务失败率约 60%）。除评估外，CUA-Suite 丰富的多模态语料库也支持多个新兴研究方向，包括通用型屏幕解析、连续空间控制、基于视频的奖励建模以及视觉世界模型。所有数据与模型均已公开发布。

WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

WildWorld：面向生成式动作角色扮演游戏的大规模动态世界建模数据集，包含动作与显式状态

WildWorld 是一个用于动作条件世界建模的大规模数据集，它从一个照片级真实的游戏中提供显式的状态标注，旨在促进对潜在状态动力学和长时程一致性的更好理解。摘要内容如下：动态系统理论和强化学习将世界演化视为由动作驱动的潜在状态动态，而视觉观测仅提供了关于状态的部分信息。近期的视频世界模型试图从数据中学习这种以动作为条件的动态。然而，现有数据集很少能满足此要求：它们通常缺乏多样性且语义丰富的动作空间，并且动作直接与视觉观测关联，而非通过底层状态进行调节。因此，动作常与像素级变化相耦合，导致模型难以学习结构化的世界动力学，并在长时程内维持演化的一致性。本文提出了 WildWorld，这是一个带有显式状态标注的大规模动作条件世界建模数据集，数据自动采集自一款照片级真实的 AAA 动作角色扮演游戏（Monster Hunter: Wilds）。WildWorld 包含超过 1.08 亿帧，涵盖了超过 450 种动作（包括移动、攻击和技能施放），并提供了同步的每帧标注，包括角色骨骼、世界状态、相机位姿和深度图。我们进一步构建了 WildBench 基准，通过动作跟随和状态对齐任务来评估模型。大量实验揭示了在建模语义丰富的动作和保持长时程状态一致性方面存在的持续挑战，凸显了对状态感知视频生成技术的需求。项目页面为 shandaai.github.io/wildworld-p...

Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs

关注关键区域：面向高效视觉语言模型的高分辨率图像块检索

AwaRes 是一个面向视觉语言模型 (Vision-Language Models, VLMs) 的空间按需框架。它根据查询需求，动态检索高分辨率图像片段，其实现结合了工具调用和基于复合奖励的多轮强化学习。AI生成的摘要：视觉语言模型 (VLMs) 通常以原生高分辨率处理图像，这迫使模型在准确性和计算效率之间进行权衡。高分辨率输入能捕捉精细细节，但计算成本高昂；低分辨率输入虽有利于提升效率，却可能遗漏关键的视觉信息（如小文本）。为此，我们提出了 AwaRes 框架。该框架首先处理低分辨率的全局视图，然后通过工具调用，仅检索出完成特定查询所必需的高分辨率图像区域，从而在精度和效率之间取得平衡。我们自动构建监督数据：首先，一个评判器通过比较低分辨率与高分辨率下的答案，来判定是否需要裁剪图像区域；同时，一个预言机 (oracle) 定位模型会确定支撑正确答案的证据区域。我们将这些区域映射到一个离散的裁剪集合中，从而形成多轮工具使用的轨迹。我们的训练流程包括：先进行冷启动的监督微调 (SFT)，随后进行多轮 GRPO (Group Relative Policy Optimization) 训练。训练中使用的复合奖励函数，综合了语义答案的正确性和显式的裁剪成本惩罚。项目页面：nimrodshabtay.github.io/AwaRes

LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning

LongCat-Flash-Prover: 通过智能体工具集成强化学习推进原生形式推理

一个拥有5600亿参数的专家混合模型，通过工具集成推理、结合混合框架与分层策略优化以稳定长视野任务的训练，显著推进了Lean4中的形式推理能力。我们介绍LongCat-Flash-Prover，这是一个旗舰级的5600亿参数开源专家混合模型，它借助智能体工具集成推理技术，在Lean4中实现了原生形式推理的突破。我们将原生形式推理任务分解为三项独立的形式化能力：自动形式化、草图构建与定理证明。为赋能这些能力，我们提出了混合专家迭代框架，用以生成高质量的任务执行路径，包括：根据给定的非正式问题生成形式化陈述、直接从该陈述生成完整证明，或生成引理风格的证明草图。在智能体强化学习过程中，我们提出了分层重要性采样策略优化算法，旨在稳定MoE模型在此类长视野任务上的训练。该算法采用了一种梯度掩码策略，该策略同时考虑了策略陈旧性问题，以及在序列和Token级别上固有的训练与推理引擎间的差异。此外，我们还引入了定理一致性与合法性检测机制，以消除奖励欺骗问题。广泛的评估表明，我们的LongCat-Flash-Prover在自动形式化与定理证明两项任务上，为开源权重模型设立了新的性能标杆。它展现出卓越的样本效率，在MiniF2F-Test基准测试中，仅使用每个问题72次的推理尝试，就达到了97.1%的通过率。在更具挑战性的基准测试上，它成功解决了ProverBench中70.8%的问题以及PutnamBench中41.5%的问题，且每个问题的尝试次数不超过220次，其性能显著超越了现有的开源权重基线模型。

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

SpecEyes：通过推测性感知与规划加速智能体多模态大语言模型

SpecEyes 通过采用一个具备认知门控与异构并行处理能力的轻量级推测规划器，来加速智能体多模态大语言模型 (Agentic Multimodal LLMs)，从而降低延迟并提升吞吐量。智能体多模态大语言模型 (例如 OpenAI o3 和 Gemini Agentic Vision) 通过迭代调用视觉工具，展现出卓越的推理能力。然而，其级联的感知、推理与工具调用流程会带来显著的开销。这种被称为"智能体深度"的开销，不仅导致高昂的延迟，也严重制约了系统级的并发性能。为此，我们提出了 SpecEyes，一个智能体层级的推测加速框架，旨在打破这一顺序瓶颈。我们的核心思路是：一个轻量级、无需工具的 MLLM 可以作为推测规划器来预测执行轨迹，从而在不损失准确性的前提下，提前终止昂贵的工具链调用。为了有效调控这一推测规划过程，我们引入了一种基于答案可分离性的认知门控机制，该机制能够量化模型的自验证置信度，且无需依赖真实标签。此外，我们设计了一个异构并行漏斗结构，它利用小模型的无状态并发特性来掩盖大模型的有状态串行执行，从而最大化系统吞吐量。在 V* Bench、HR-Bench 和 POPE 基准测试上的大量实验表明，SpecEyes 在保持甚至提升准确率 (最高提升 6.7%) 的同时，相比智能体基线实现了 1.1 至 3.35 倍的加速，有效提升了系统在并发工作负载下的服务吞吐量。

Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

Calibri：通过参数高效校准增强扩散Transformer

扩散Transformer (Diffusion Transformers, DiTs) 可以通过一种参数高效的校准方法进行增强，该方法在减少推理步骤的同时提升生成质量。本文揭示了扩散Transformer (DiTs) 在显著提升生成任务性能方面的潜力。通过对去噪过程的深入分析，我们发现引入单个可学习的缩放参数即可显著提升DiT模块的性能。基于此洞见，我们提出了Calibri，这是一种参数高效的方法，通过最优校准DiT组件来提升生成质量。Calibri将DiT校准构建为一个黑盒奖励优化问题，并利用进化算法高效求解，仅需修改约100个参数。实验结果表明，尽管设计轻量，Calibri在各种文生图模型中均能持续提升性能。值得注意的是，Calibri还能减少图像生成所需的推理步骤，同时保持高质量输出。

From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

从静态模板到动态运行时图：LLM 智能体工作流优化综述

摘要：基于大语言模型 (LLM) 的系统正日益普及，它们通过构建可执行的工作流来解决任务，这些工作流交织了 LLM 调用、信息检索、工具使用、代码执行、内存更新和验证等多种计算组件。本综述回顾了近期设计和优化此类工作流的方法，我们将这些工作流视为智能体计算图 (ACGs)。我们根据工作流结构（即包含哪些组件或智能体、它们之间的依赖关系以及信息流）的确定时机来组织相关文献。这一视角区分了静态方法与动态方法：静态方法在部署前确定一个可重用的工作流框架；而动态方法则在执行前或执行期间，为特定的运行实例选择、生成或修订工作流。我们进一步从三个维度梳理现有工作：结构确定时机、工作流的优化部分以及指导优化的评估信号（例如，任务指标、验证器信号、偏好或基于轨迹的反馈）。我们还区分了可重用的工作流模板、特定运行实例中实现的图以及执行轨迹，从而将可重用的设计选择、给定运行中实际部署的结构以及已实现的运行时行为分离开来。最后，我们概述了一种结构感知的评估视角，该视角不仅关注下游任务指标，还结合了图级属性、执行成本、鲁棒性以及跨输入的结构变化等因素。我们的目标是提供一个清晰的术语体系、一个用于定位新方法的统一框架、一个对现有文献体系更具可比性的视角，以及一个为未来 LLM 智能体工作流优化研究提供更具可重复性的评估标准。

VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding

VideoDetective：融合外部查询与内部相关性的线索搜寻方法用于长视频理解

VideoDetective 框架通过整合查询-片段相关性与片段间亲和力来提升长视频理解能力，其核心是利用视觉-时序图与假设-验证-细化循环。长视频理解对多模态大语言模型 (MLLMs) 而言仍具挑战性，主要受限于其上下文窗口长度，这要求模型能够从视频中识别出稀疏的、与查询相关的片段。然而，现有方法大多仅依赖查询本身来定位线索，忽视了视频的内在结构以及不同片段之间相关性的差异。为此，我们提出了 VideoDetective，这是一个为长视频问答任务设计的框架，它通过融合查询到片段的相关性以及片段间的亲和力来进行有效的线索搜寻。具体而言，我们将视频分割成多个片段，并基于视觉相似性和时间邻近性构建一个视觉-时序亲和图来表示它们。随后，我们执行一个假设-验证-细化循环：首先估计已观测片段与查询的相关性分数，然后将这些分数传播到未观测片段，从而得到一个全局相关性分布。该分布能够指导模型在仅进行稀疏观测的情况下，定位出对最终回答最为关键的片段。实验结果表明，我们的方法在多个代表性基准测试上，对一系列主流多模态大语言模型均带来了显著的性能提升，其中在 VideoMME-long 数据集上的准确率最高提升了 7.5%。我们的代码公开在 videodetective.github.io/。

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

TerraScope: 面向地球观测的像素级视觉推理

TerraScope 是一个统一的视觉-语言模型 (VLM)，具备模态灵活性和多时序能力，可实现像素级地理空间推理。该模型在一个包含详细视觉推理输出的新基准上进行了评估。视觉-语言模型在地球观测领域展现出潜力，但在需要将复杂空间推理任务锚定到精确像素级视觉表示上时，仍面临困难。为解决此问题，我们提出了 TerraScope，这是一个统一的 VLM，它依托于两项关键能力实现像素级地理空间推理：(1) 模态灵活推理：能处理单模态输入（光学或 SAR），并在多模态可用时，自适应地将其融合到推理过程中；(2) 多时序推理：能整合时序序列，进行跨多个时间点的变化分析。此外，我们构建了 Terra-CoT，这是一个大规模数据集，包含 100 万个样本，其推理链中嵌入了来自多个数据源的像素级掩码。我们还提出了 TerraScope-Bench，这是首个用于像素级地理空间推理的基准，包含六个子任务，用于评估答案准确性和掩码质量，以保障真正实现像素级推理。实验表明，TerraScope 在像素级地理空间推理任务上显著优于现有 VLM，同时能提供可解释的视觉证据。

DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

DA-Flow：基于扩散模型的退化感知光流估计

基于高质量数据训练的光流模型，在处理现实世界中存在模糊、噪声和压缩伪影等退化的视频时，性能通常会急剧下降。为克服这一局限，我们提出了退化感知光流 (Degradation-Aware Optical Flow) 这一新任务，其目标是对现实世界中受损的视频进行准确的密集对应估计。我们的核心洞察在于，图像修复扩散模型的中间特征表示本质上能感知退化，但缺乏对时序信息的感知能力。为解决此问题，我们通过引入全时空注意力机制来扩展模型，使其能够关注相邻帧之间的关系，并经验证表明，由此得到的特征具备零样本对应能力。基于这一发现，我们提出了 DA-Flow，这是一种混合架构，它在迭代优化框架中，将上述扩散模型特征与卷积特征进行融合。在多个基准测试的严重退化条件下，DA-Flow 的性能显著优于现有的光流方法。AI 生成摘要：基于高质量数据训练的光流模型，在处理现实世界中存在模糊、噪声和压缩伪影等退化的视频时，性能通常会急剧下降。为克服这一局限，我们提出了退化感知光流 (Degradation-Aware Optical Flow) 这一新任务，其目标是对现实世界中受损的视频进行准确的密集对应估计。我们的核心洞察在于，图像修复扩散模型的中间特征表示本质上能感知退化，但缺乏对时序信息的感知能力。为解决此问题，我们通过引入全时空注意力机制来扩展模型，使其能够关注相邻帧之间的关系，并经验证表明，由此得到的特征具备零样本对应能力。基于这一发现，我们提出了 DA-Flow，这是一种混合架构，它在迭代优化框架中，将上述扩散模型特征与卷积特征进行融合。在多个基准测试的严重退化条件下，DA-Flow 的性能显著优于现有的光流方法。

RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

RealRestorer：利用大规模图像编辑模型迈向可泛化的真实世界图像修复

我们开发了一个大规模数据集和一个开源模型，旨在提升图像修复性能，缩小与闭源方案的差距，同时为真实世界退化评估提供了一个专用基准。AI生成摘要：在真实世界退化条件下进行图像修复，对于自动驾驶和物体检测等下游任务至关重要。然而，现有修复模型往往受限于其训练数据的规模和分布，导致对真实场景的泛化能力不佳。近期，大规模图像编辑模型在修复任务中展现出强大的泛化能力，特别是像Nano Banana Pro这类闭源模型，能够在修复图像的同时保持一致性。但利用这些大型通用模型达到同等性能，需要耗费大量的数据和计算资源。为解决此问题，我们构建了一个涵盖九种常见真实世界退化类型的大规模数据集，并训练了一个最先进的开源模型，以缩小与闭源替代方案的差距。此外，我们提出了RealIR-Bench基准，它包含464张真实世界退化图像，并提供了专注于退化去除和一致性保持的定制化评估指标。大量实验表明，我们的模型在开源方法中位列第一，达到了最先进的性能水平。