每周AI论文速递（260316-260320）

Demystifing Video Reasoning

视频生成的最新进展揭示了一个出人意料的现象：基于扩散的视频模型展现出非平凡推理能力。先前的研究将此归因于"帧链"（Chain-of-Frames，CoF）机制，假设推理是跨视频帧顺序展开的。本文挑战这一假设，并发现了一种根本不同的机制。研究表明，视频模型中的推理主要沿扩散去噪步骤涌现。通过定性分析和针对性的探测实验，研究发现模型在早期去噪步骤中探索多个候选解决方案，并逐步收敛到最终答案，我们将此过程称为"步骤链"（Chain-of-Steps，CoS）。除这一核心机制外，我们还识别出几种对模型性能至关重要的涌现推理行为：（1）工作记忆，支持持续参考；（2）自我修正与增强，允许从不正确的中间解决方案中恢复；（3）先感知后行动，早期步骤建立语义基础，后期步骤执行结构化操作。在扩散步骤中，我们进一步发现扩散Transformer内部出现了自演化的功能特化------早期层编码密集的感知结构，中间层执行推理，后期层巩固潜在表示。基于这些洞见，我们提出了一个简单的免训练策略作为概念验证，展示了如何通过集成不同随机种子的相同模型的潜在轨迹来改进推理能力。总体而言，本研究为视频生成模型中推理如何涌现提供了系统理解，为更好地利用视频模型的内在推理动力学作为智能新基底的研究奠定了基础。

AI Can Learn Scientific Taste

AI能够学习科研品味

伟大的科学家拥有强大的判断力和远见，这与我们所说的"科研品味"密切相关。在此，我们用该术语指代判断和提出具有高影响力研究想法的能力。然而，大多数相关研究集中于提升AI科学家的执行能力，而增强AI的科研品味仍处于未被充分探索的状态。本文提出"基于社区反馈的强化学习"（RLCF），这是一种使用大规模社区信号作为监督的训练范式，并将科研品味学习构建为偏好建模和对齐问题。在偏好建模方面，我们在70万对领域和时间匹配的高引用与低引用论文上训练Scientific Judge来判断想法。在偏好对齐方面，使用Scientific Judge作为奖励模型，我们训练策略模型Scientific Thinker来提出具有高潜在影响力的研究想法。实验表明，Scientific Judge在性能上超越了SOTA LLM（如GPT-5.2、Gemini 3 Pro），并能泛化到未来年份测试、未见领域和同行评审偏好。此外，Scientific Thinker提出的想法比基线方法具有更高的潜在影响力。研究结果表明AI能够学习科研品味，这是迈向人类级AI科学家的关键一步。

InCoder-32B: Code Foundation Model for Industrial Scenarios

InCoder-32B：面向工业场景的代码基础模型

最新的代码大语言模型在通用编程任务上取得了显著进展。然而，在需要推理硬件语义、专用语言构造和严格资源约束的工业场景中，它们的性能显著下降。为应对这些挑战，我们推出了InCoder-32B（Industrial-Coder-32B），这是首个320亿参数的代码基础模型，统一了芯片设计、GPU内核优化、嵌入式系统、编译器优化和3D建模领域的代码智能。通过采用高效架构，我们从零开始训练InCoder-32B，包括通用代码预训练、精选工业代码退火、使用合成工业推理数据将上下文从8K逐步扩展到128K token的中间训练，以及基于执行验证的后训练。我们在14个主流通用代码基准测试和跨越4个专业领域的9个工业基准测试上进行了广泛评估。结果表明，InCoder-32B在通用任务上实现了极具竞争力的性能，同时在各工业领域建立了强大的开源基线。

SocialOmni：全模态模型音频-视觉社交交互基准测试

全模态大语言模型（OLM）通过原生整合音频、视觉和文本重新定义了人机交互。然而，现有的OLM基准测试仍锚定于静态、以准确性为中心的任务，在评估社交交互能力方面存在关键空白，这是在自然对话中导航动态信号的基本能力。为此，我们提出SocialOmni，这是一个综合基准测试，从三个核心维度对对话交互性进行操作化评估：（i）说话者分离与识别（谁在说话）；（ii）打断时机控制（何时介入）；（iii）自然打断生成（如何措辞打断）。SocialOmni包含2000个感知样本和209个具有严格时间和上下文约束的质量控制交互生成实例，并辅以受控的视听不一致场景来测试模型鲁棒性。我们对12个领先的OLM进行了基准测试，揭示了它们在社交交互能力上的显著差异。进一步分析表明，模型的感知准确性与生成上下文适当打断的能力之间存在明显的解耦，表明仅以理解为中心的指标不足以表征对话社交能力。更令人鼓舞的是，SocialOmni的诊断结果为未来OLM弥合感知-交互鸿沟提供了可操作的信号。

MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification

MiroThinker-1.7与H1：通过验证迈向重载研究代理

我们展示了MiroThinker-1.7，这是一个专为复杂长视界推理任务设计的新型研究代理。在此基础上，我们进一步推出MiroThinker-H1，它扩展了代理的重载推理能力，以实现更可靠的多步骤问题求解。具体而言，MiroThinker-1.7通过一个代理式中间训练阶段提高了每个交互步骤的可靠性，该阶段强调结构化规划、上下文推理和工具交互。这实现了更有效的多步骤交互和跨复杂任务的持续推理。MiroThinker-H1进一步在局部和全局两个层面将验证直接整合到推理过程中。中间推理决策可以在推理过程中被评估和优化，而整体推理轨迹被审计以确保最终答案得到连贯证据链的支持。在涵盖开放网络研究、科学推理和财务分析的基准测试中，MiroThinker-H1在深度研究任务上达到了最先进性能，同时在专业领域保持强劲结果。我们还作为开源模型发布了MiroThinker-1.7和MiroThinker-1.7-mini，提供了具有显著改进效率的研究代理能力。

HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

HSImul3R：仿真就绪人机交互的物理闭环重建

我们提出了HSImul3R，这是一个从随意采集（包括稀疏视图图像和单目视频）进行仿真就绪人机交互3D重建的统一框架。现有方法存在感知-仿真鸿沟：视觉上看似合理的重建往往违反物理约束，导致物理引擎不稳定和具身AI应用失败。为弥合这一鸿沟，我们引入了物理双向优化流程，将物理模拟器作为主动监督者来联合优化人体动力学和场景几何。在正向方向，我们采用场景定向强化学习在运动保真度和接触稳定性双重监督下优化人体运动。在反向方向，我们提出直接模拟奖励优化，利用对重力稳定性和交互成功的模拟反馈来优化场景几何。我们进一步提出HSIBench，这是一个包含多样化物体和交互场景的新基准。大量实验证明，HSImul3R产生了首个稳定的、仿真就绪的HSI重建，并可直接部署到真实的人形机器人上。

EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings

EnterpriseOps-Gym：企业环境中有状态代理规划和工具使用

大语言模型正从被动信息提供者转向用于复杂工作流的主动代理。然而，作为可靠AI员工在企业中的部署受到基准测试的限制，这些测试未能捕捉专业环境的复杂性，特别是需要在持续状态变化和严格访问协议中进行长视界规划。本文介绍了EnterpriseOps-Gym，这是一个旨在评估现实企业环境中代理规划的基准测试。具体而言，EnterpriseOps-Gym配备了一个包含164个数据库表和512个功能工具的容器化沙盒，以模拟现实世界的搜索摩擦。在此环境中，代理在8个关键垂直领域（包括客户服务、人力资源和IT）的1150个专家策划任务上接受评估。我们对14个前沿模型的评估揭示了SOTA模型的关键局限性：表现最佳的Claude Opus 4.5仅达到37.4%的成功率。进一步分析表明，提供人工预言计划可将性能提高14-35个百分点， pinpoint战略推理是主要瓶颈。此外，代理经常无法拒绝不可行的任务（最佳模型达到53.9%），导致意外且潜在的有害副作用。研究结果强调当前代理尚未准备好进行自主企业部署。更广泛地说，EnterpriseOps-Gym为推进专业工作流中代理规划的鲁棒性提供了具体的测试平台。

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

Qianfan-OCR：文档智能的统一端到端模型

我们提出了Qianfan-OCR，一个40亿参数的端到端视觉-语言模型，在单一架构中统一了文档解析、布局分析和文档理解。它执行直接图像到Markdown转换，并支持多样化的提示驱动任务，包括表格提取、图表理解、文档问答和关键信息提取。为解决端到端OCR中显式布局分析的缺失，我们提出了Layout-as-Thought，这是一个由特殊think token触发的可选思考阶段，在生成最终输出前产生结构化布局表示------边界框、元素类型和阅读顺序------从而恢复布局基础能力并提高复杂布局的准确性。Qianfan-OCR在端到端模型中在OmniDocBench v1.5（93.12）和OlmOCR Bench（79.8）上排名第一，在OCRBench、CCOCR、DocVQA和ChartQA上与相当规模的通用VLM相比取得了竞争性结果，并在公共关键信息提取基准测试中达到了最高平均分数，超越了Gemini-3.1-Pro、Seed-2.0和Qwen3-VL-235B。该模型通过百度智能云千帆平台公开访问。

OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

OpenSeeker：通过完全开源训练数据民主化前沿搜索代理

深度搜索能力已成为前沿大语言模型（LLM）代理不可或缺的能力，然而高性能搜索代理的开发仍由工业巨头主导，缺乏透明、高质量的训练数据。这种持续的数据稀缺从根本上阻碍了更广泛的研究社区在该领域进行发展和创新。为弥合这一鸿沟，我们推出OpenSeeker，这是首个通过完全开源（即模型和数据）达到前沿性能的搜索代理，其核心技术创新包括：（1）基于事实的可扩展可控问答合成，通过拓扑扩展和实体混淆反向工程网络图，生成具有可控覆盖率和复杂度的复杂多跳推理任务。（2）去噪轨迹合成，采用回顾总结机制对轨迹进行去噪，从而促进教师LLM生成高质量动作。实验结果表明，OpenSeeker仅经过一次训练运行，在11700个合成样本上训练，在BrowseComp、BrowseComp-ZH、xbench-DeepSearch和WideSearch等多个基准测试上实现了SOTA性能。值得注意的是，通过简单的SFT训练，OpenSeeker显著优于第二好的完全开源代理DeepDive（例如在BrowseComp上29.5%对15.3%），甚至在BrowseComp-ZH上超越了通义DeepResearch等工业竞争对手（48.4%对46.7%，后者通过大量持续预训练、SFT和RL训练）。我们完全开源完整的训练数据集和模型权重，以民主化前沿搜索代理研究并培育更透明、协作的生态系统。

Grounding World Simulation Models in a Real-World Metropolis

将世界模拟模型锚定在真实世界的大都市

如果世界模拟模型能够渲染的不是想象的环境，而是一座实际存在的城市，会怎样？先前的生成世界模型通过想象所有内容合成视觉上看似合理但人工的环境。我们提出了首尔世界模型（SWM），这是一个锚定在真实城市首尔的城市场世界模型。SWM通过检索增强条件（基于附近街景图像）来锚定自回归视频生成。然而，这种设计引入了若干挑战，包括检索参考与动态目标场景之间的时间错位、车辆以稀疏间隔捕获导致的轨迹多样性有限和数据稀疏性。我们通过跨时间配对、大规模合成数据集（支持多样化的相机轨迹）和视角插值流程（从稀疏街景图像合成连贯训练视频）来解决这些挑战。我们进一步引入虚拟前瞻汇，通过将每个数据块持续重新锚定到未来位置的检索图像来稳定长视界生成。我们在三个城市（首尔、釜山和安娜堡）上评估SWM与最新视频世界模型的对比。SWM在生成锚定于实际城市环境的、空间保真、时间一致的长视界视频方面优于现有方法，轨迹可达数百米，同时支持多样化的相机运动和文本提示的场景变化。

Attention Residuals

注意力残差

带有PreNorm的残差连接在现代LLM中是标准配置，然而它们以固定的单位权重累积所有层输出。这种统一聚合导致隐藏状态随深度不受控制地增长，逐渐稀释每层的贡献。我们提出了注意力残差（AttnRes），它用对先前层输出的softmax注意力替换这种固定累积，允许每层以学习的、输入依赖的权重选择性地聚合早期表示。为解决大规模模型训练中所有先前层输出的内存和通信开销，我们引入了Block AttnRes，它将层划分为块并对块级表示进行注意力计算，减少内存占用同时保留完整AttnRes的大部分收益。结合基于缓存的流水线通信和两阶段计算策略，Block AttnRes成为标准残差连接的实用替代方案，开销最小。扩展定律实验证实，改进在模型规模上是一致的，消融研究验证了内容依赖深度选择的好处。我们进一步将AttnRes整合到Kimi Linear架构（480亿总参数/30亿激活参数）中，并在1.4万亿token上预训练，其中AttnRes缓解了PreNorm稀释，在深度上产生更均匀的输出幅度和梯度分布，并改善了所有评估任务的下游性能。

Efficient Reasoning with Balanced Thinking

平衡思考的高效推理

大型推理模型（LRM）展现出卓越的推理能力，但它们经常受到过度思考（在简单问题上花费冗余计算步骤）或思考不足（尽管具有固有能力却未能探索足够的推理路径）的困扰。这些问题导致低效和潜在的不准确性，限制了在资源受限环境中的实际部署。现有的缓解过度思考的方法（如抑制反思关键词或调整推理长度）可能会无意中诱发思考不足，从而损害准确性。因此，我们提出了ReBalance，一个免训练框架，通过平衡思考实现高效推理。ReBalance利用置信度作为推理动态的连续指标，通过高置信度方差识别过度思考，通过一致的过度自信识别思考不足。通过将小规模数据集中的隐藏状态聚合为推理模式原型，我们计算引导向量来指导LRM的推理轨迹。动态控制函数基于实时置信度调节该引导向量的强度和方向，在过度思考时修剪冗余，在思考不足时促进探索。在从0.5B到32B的四个模型和数学推理、一般问答和编码任务的九个基准测试上进行的广泛实验证明，ReBalance有效减少了输出冗余同时提高了准确性，为高效鲁棒的LRM部署提供了一个通用的、免训练的、即插即用的策略。项目页面和代码可在rebalance-ai.github.io获取。

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

MetaClaw：仅通过对话------一个在真实环境中元学习和演进的代理

大语言模型（LLM）代理越来越多地用于复杂任务，然而部署的代理往往保持静态，无法随着用户需求的变化而适应。这造成了持续服务与更新能力以匹配变化任务分布的必要性之间的张力。在OpenClaw等处理20多个通道多样化工作流的平台上，现有方法要么存储原始轨迹而不提炼知识，要么维护静态技能库，要么需要重新训练的破坏性停机时间。我们提出了MetaClaw，一个持续元学习框架，联合演进基础LLM策略和可重用行为技能库。MetaClaw采用两种互补机制。技能驱动的快速适应通过LLM演进器分析失败轨迹来合成新技能，实现零停机时间的即时改进。机会策略优化通过云端LoRA微调和过程奖励模型强化学习（RL-PRM）执行基于梯度的更新。机会元学习调度器（OMLS）在用户非活动窗口期间触发此过程，监控系统不活动和日历数据。这些机制相互强化：优化后的策略为技能合成生成更好的轨迹，而更丰富的技能为策略优化提供更高质量的数据。为防止数据污染，版本控制机制分离了支持和查询数据。MetaClaw基于代理架构构建，可在没有本地GPU的情况下扩展到生产规模的LLM。在MetaClaw-Bench和AutoResearchClaw上的实验表明，技能驱动的适应将相对准确性提高了高达32%。完整流程将Kimi-K2.5的准确性从21.4%推进到40.6%，综合鲁棒性提高了18.3%。代码可在github.com/aiming-lab/...

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

不确定性思考：通过潜在熵感知解码缓解MLRM幻觉

多模态大型推理模型（MLRM）的最新进展显著提高了视觉问答的性能。然而，我们观察到过渡词（如because、however和wait）与幻觉密切相关，往往表现出高熵状态。我们认为，足够的上下文推理信息可以直接从token概率分布中提取。受叠加表示理论启发，我们提出利用潜在叠加推理来整合多个候选语义并维持潜在推理轨迹。假设是，依赖离散文本输入可能驱使模型朝向顺序显式推理，在高熵推理阶段未充分利用密集上下文线索。因此，我们提出从token概率分布构建丰富的语义表示以增强上下文推理。为此，我们提出了潜在熵感知解码（LEAD），这是一种高效即插即用的解码策略，利用语义上下文实现可靠推理。方法的核心在于熵感知推理模式切换。模型在高熵状态下采用概率加权的连续嵌入，并随着熵降低转换回离散token嵌入。此外，我们提出了先验引导的视觉锚点注入策略，鼓励模型关注视觉信息。大量实验表明，LEAD在多个基准测试上有效缓解了各种MLRM的幻觉。

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Video-CoE：通过事件链增强视频事件预测

尽管MLLM在各种视频任务中的应用取得了进展，视频事件预测（VEP）仍然相对未被充分探索。VEP要求模型对视频进行细粒度时间建模，并在视频和未来事件之间建立逻辑关系，这是当前MLLM仍然难以做到的。本文首先对当前领先的MLLM在VEP任务上进行了全面评估，揭示了它们预测不准确的原因，包括缺乏对未来事件预测的逻辑推理能力和视觉信息利用不足。为应对这些挑战，我们提出了"事件链"（CoE）范式，它构建时间事件链以隐式强制MLLM关注视觉内容和视频与未来事件之间的逻辑联系，通过多种训练协议激励模型的推理能力。公共基准测试上的实验结果表明，我们的方法在VEP任务上优于领先的开放源代码和商业MLLM，建立了新的SOTA。代码和模型将很快发布。

MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

MosaicMem：可控视频世界模型的混合空间记忆

视频扩散模型正从短的可信片段转向世界模拟器，必须在相机运动、重访和干预下保持一致。然而，空间记忆仍然是一个关键瓶颈：显式3D结构可以改善基于重投影的一致性，但难以描绘运动物体，而隐式记忆即使姿势正确也经常产生不准确的相机运动。我们提出了Mosaic Memory（MosaicMem），这是一种混合空间记忆，将补丁提升到3D以进行可靠定位和定向检索，同时利用模型原生条件保留提示跟随生成。MosaicMem通过补丁-组合接口在查询视图中组合空间对齐的补丁，保留应该持续存在的内容，同时允许模型修复应该演进的内容。结合PRoPe相机条件和两种新的记忆对齐方法，实验表明与隐式记忆相比姿势跟随性有所改善，与显式基线相比动态建模更强。MosaicMem进一步实现了分钟级导航、基于记忆的场景编辑和自回归展开。

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

生成模型懂空间：释放隐式3D先验用于场景理解

虽然多模态大语言模型展示了令人印象深刻的语义能力，但它们经常受到空间盲视的困扰，难以处理细粒度几何推理和物理动力学。现有的解决方案通常依赖显式3D模态或复杂的几何框架，受到数据稀缺和泛化挑战的限制。本文提出了范式转变，利用大规模视频生成模型中的隐式空间先验。我们认为，为了合成时间连贯的视频，这些模型本质上学习了鲁棒的3D结构先验和物理定律。我们引入了VEGA-3D（Video Extracted Generative Awareness），这是一个即插即用框架，将预训练的视频扩散模型重新用作潜在世界模拟器。通过从中间噪声级别提取时空特征，并通过token级自适应门控融合机制将其与语义表示整合，我们为MLLM提供了密集几何线索，而无需显式3D监督。在3D场景理解、空间推理和具身操作基准测试上的大量实验证明，我们的方法优于SOTA基线，验证了生成先验为物理世界理解提供了可扩展的基础。代码可在github.com/H-EmbodVis/...

Mixture-of-Depths Attention

混合深度注意力

扩展深度是大语言模型（LLM）的关键驱动因素。然而，随着LLM变得更深，它们经常遭受信号退化：浅层形成的信息特征被重复的残差更新逐渐稀释，使其在更深层中更难恢复。我们引入混合深度注意力（MoDA），这是一种允许每个注意力头关注当前层的序列KV对和先前层的深度KV对的机制。我们进一步描述了MoDA的硬件高效算法，解决了非连续内存访问模式，在64K序列长度下实现了FlashAttention-2效率的97.3%。在15亿参数模型上的实验证明，MoDA始终优于强基线。值得注意的是，它在10个验证基准上将平均困惑度提高了0.2，在10个下游任务上将平均性能提高了2.11%，计算开销仅为3.7% FLOPs。我们还发现，将MoDA与后归一化结合使用比与前归一化结合使用效果更好。这些结果表明MoDA是深度扩展的有前途的原语。代码已在github.com/hustvl/MoDA...

Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

Kinema4D：时空具身模拟的运动学4D世界建模

模拟机器人-世界交互是具身AI的基石。最近，一些工作展示了利用视频生成超越传统模拟器刚性视觉/物理约束的前景。然而，它们主要在2D空间中操作或由静态环境线索引导，忽略了机器人-世界交互本质上是4D时空事件这一基本现实，需要精确的交互建模。为在确保精确机器人控制的同时恢复这种4D本质，我们引入了Kinema4D，这是一个新的动作条件4D生成机器人模拟器，将机器人-世界交互解耦为：i）机器人控制的精确4D表示：我们通过运动学驱动基于URDF的3D机器人，产生精确的4D机器人控制轨迹。ii）环境反应的生成式4D建模：我们将4D机器人轨迹投影为点图作为时空视觉信号，控制生成模型将复杂环境的反应动力学合成为同步的RGB/点图序列。为促进训练，我们策划了一个名为Robo4D-200k的大规模数据集，包含201,426个具有高质量4D注释的机器人交互片段。大量实验证明，我们的方法有效地模拟了物理合理、几何一致且具身不可知的交互，忠实地反映了多样化的真实世界动力学。它首次展示了零样本转移能力，为推进下一代具身模拟提供了高保真基础。

LMEB: Long-horizon Memory Embedding Benchmark

LMEB：长视界记忆嵌入基准测试

记忆嵌入对记忆增强系统（如OpenClaw）至关重要，但在当前的文本嵌入基准测试中其评估未被充分探索，这些测试狭隘地聚焦于传统段落检索，未能评估模型处理长视界记忆检索任务的能力，这些任务涉及碎片化的、上下文依赖的和时间遥远的信息。为此，我们引入了长视界记忆嵌入基准测试（LMEB），这是一个评估嵌入模型处理复杂长视界记忆检索任务能力的综合框架。LMEB跨越22个数据集和193个零样本检索任务，涵盖4种记忆类型：情节记忆、对话记忆、语义记忆和程序记忆，包含AI生成和人类注释的数据。这些记忆类型在抽象程度和时间依赖性方面有所不同，捕捉了记忆检索的不同方面，反映了现实世界的多样化挑战。我们评估了15个广泛使用的嵌入模型，从数亿到100亿参数不等。结果表明：（1）LMEB提供了合理的难度水平；（2）较大的模型并不总是表现更好；（3）LMEB和MTEB表现出正交性。这表明该领域尚未收敛到一个能够在所有记忆检索任务上表现出色的通用模型，并且传统段落检索的性能可能无法泛化到长视界记忆检索。总之，通过提供标准化和可复现的评估框架，LMEB填补了记忆嵌入评估的关键空白，推动了处理长期、上下文依赖记忆检索的文本嵌入的进一步发展。LMEB可在github.com/KaLM-Embedd...

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

SAMA：指令引导视频编辑的分解语义锚定和运动对齐

当前的指令引导视频编辑模型难以同时平衡精确的语义修改和忠实的运动保留。虽然现有方法依赖注入显式外部先验（如VLM特征或结构条件）来缓解这些问题，但这种依赖严重制约了模型鲁棒性和泛化能力。为克服这一限制，我们提出了SAMA（分解语义锚定和运动对齐），这是一个将视频编辑分解为语义锚定和运动建模的框架。首先，我们引入语义锚定，通过在稀疏锚定帧上联合预测语义token和视频潜在表示来建立可靠的视觉锚点，实现纯粹的指令感知结构规划。其次，运动对齐在同一主干上进行以运动为中心的视频恢复预训练任务（立方体修复、速度扰动和管打乱）的预训练，使模型能够直接从原始视频中内化时间动力学。SAMA通过两阶段流程优化：一个分解的预训练阶段，学习固有的语义-运动表示而无需成对的视频-指令编辑数据，随后在成对编辑数据上进行监督微调。值得注意的是，仅分解预训练就已经产生了强大的零样本视频编辑能力，验证了所提出的分解。SAMA在开源模型中实现了SOTA性能，并与领先的商业系统（如Kling-Omni）具有竞争力。代码、模型和数据集将发布。

WorldCam: Interactive Autoregressive 3D Gaming Worlds with Camera Pose as a Unifying Geometric Representation

WorldCam：以相机位姿为统一几何表示的交互式自回归3D游戏世界

视频扩散transformer的最新进展实现了交互式游戏世界模型，允许用户在长视界上探索生成的环境。然而，现有方法在精确动作控制和长视界3D一致性方面存在困难。大多数先前工作将用户动作视为抽象条件信号，忽略了动作与3D世界之间基本的几何耦合，即动作诱导相对相机运动，这些运动在3D世界中累积为全局相机位姿。本文建立了相机位姿作为统一几何表示，以联合支撑即时动作控制和长期3D一致性。首先，我们定义了基于物理的连续动作空间，并在李代数中表示用户输入以推导精确的6自由度相机位姿，通过相机嵌入器将其注入生成模型以确保精确的动作对齐。其次，我们使用全局相机位姿作为空间索引来检索相关的过去观察，实现长视界导航期间位置的几何一致性重访。为支持这项研究，我们引入了一个大规模数据集，包含3000分钟带有相机轨迹和文本注释的真实人类游戏玩法。大量实验表明，我们的方法在动作可控性、长视界视觉质量和3D空间一致性方面显著优于SOTA交互式游戏世界模型。

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

TRUST-SQL：未知模式文本到SQL的工具集成多轮强化学习

文本到SQL解析在完整模式假设下取得了显著进展。然而，这一前提在现实企业环境中失败，其中数据库包含数百个表和大量噪声元数据。代理必须主动识别和验证仅相关的子集，而不是预先注入完整模式，这产生了我们在本文中研究的未知模式场景。为解决此问题，我们提出了TRUST-SQL（通过工具的未知模式真实推理）。我们将任务构建为部分可观察马尔可夫决策过程，其中自主代理采用结构化的四阶段协议将推理建立在已验证元数据基础上。关键的是，该协议为我们的新型双轨GRPO策略提供了结构边界。通过应用token级掩码优势，该策略将探索奖励与执行结果分离来解决信用分配问题，比标准GRPO实现了9.9%的相对改进。在五个基准测试上的大量实验证明，TRUST-SQL相比其基础模型，4B和8B变体分别实现了平均30.6%和16.6%的绝对改进。值得注意的是，尽管完全在无需预加载元数据的情况下运行，我们的框架始终匹配或超越依赖模式预填充的强基线。

Online Experiential Learning for Language Models

语言模型的在线体验学习

改进大语言模型的主流范式依赖于使用人类注释或模拟环境的离线训练，完全未利用实际部署期间积累的丰富体验。我们提出了在线体验学习（OEL），这是一个使语言模型能够从自身部署体验中持续改进的框架。OEL分两个阶段运行：首先，从用户侧收集的交互轨迹中提取和积累可转移的体验知识；其次，通过策略上下文蒸馏将这些知识整合到模型参数中，无需访问用户侧环境。两个阶段迭代形成在线学习循环，改进后的模型收集更高质量的轨迹，为后续轮次产生更丰富的体验知识。我们在多个模型规模和思考与非思考变体的基于文本游戏环境中评估OEL。OEL在连续迭代中实现一致改进，同时提高任务准确性和token效率，同时保持分布外性能。我们的分析进一步表明，提取的体验知识显著比原始轨迹更有效，并且知识源与策略模型之间的策略一致性对有效学习至关重要。

FASTER: Rethinking Real-Time Flow VLAs

FASTER：重新思考实时流VLA

实时执行对于在物理世界中部署视觉-语言-动作（VLA）模型至关重要。现有的异步推理方法主要优化轨迹平滑度，但忽略了对环境变化反应的关键延迟。通过重新思考动作分块策略中反应的概念，本文对支配反应时间的因素进行了系统分析。我们表明，反应时间遵循由首次动作时间（TTFA）和执行视界共同决定的均匀分布。此外，我们揭示了在基于流的VLA中应用恒定调度的标准实践可能是低效的，迫使系统在开始任何移动之前完成所有采样步骤，形成反应延迟的瓶颈。为克服这一问题，我们提出了快速动作采样以实现即时反应（FASTER）。通过引入视界感知调度，FASTER在流采样期间自适应地优先考虑近期动作，将即时反应的去噪压缩十倍（例如在π0.5和X-VLA中）到单个步骤，同时保持长视界轨迹的质量。结合流式客户端-服务器流程，FASTER显著减少了真实机器人上的有效反应延迟，特别是在部署在消费级GPU上时。包括高度动态的乒乓球任务在内的真实世界实验证明，FASTER解锁了通用策略前所未有的实时响应能力，实现了准确和平滑轨迹的快速生成。

3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

3DreamBooth：高保真3D主体驱动视频生成模型

为定制主体创建动态、视图一致的视频在各种新兴应用中备受追捧，包括沉浸式VR/AR、虚拟制作和下一代电子商务。然而，尽管主体驱动视频生成取得了快速进展，现有方法主要将主体视为2D实体，专注于通过单视图视觉特征或文本提示转移身份。由于现实世界的主体本质上是3D的，将这些以2D为中心的方法应用于3D物体定制揭示了一个基本限制：它们缺乏重建3D几何所需的全面空间先验。因此，在合成新视图时，它们必须依靠生成看似合理但任意的细节来处理未见区域，而不是保留真实的3D身份。由于多视图视频数据集的稀缺，实现真正的3D感知定制仍然具有挑战性。虽然可以尝试在有限视频序列上微调模型，但这往往导致时间过拟合。为解决这些问题，我们引入了一个用于3D感知视频定制的新框架，包括3DreamBooth和3Dapter。3DreamBooth通过1帧优化范式将空间几何与时间运动解耦。通过将更新限制在空间表示，它有效地将鲁棒的3D先验烘焙到模型中，而无需穷举的视频训练。为增强细粒度纹理并加速收敛，我们整合了3Dapter，这是一个视觉条件模块。在单视图预训练后，3Dapter通过非对称条件策略与主生成分支进行多视图联合优化。这种设计允许模块作为动态选择性路由器，从最小参考集中查询视图特定的几何提示。项目页面：ko-lani.github.io/3DreamBooth...