每周AI论文速递（251229-260102）

mHC: Manifold-Constrained Hyper-Connections

近来，以超连接 (HC) 为代表的研究，通过扩展残差流宽度并多样化连接模式，对过去十年间确立的、普遍存在的残差连接范式进行了拓展。尽管这带来了显著的性能提升，但连接模式的多样化从根本上损害了残差连接固有的恒等映射特性，进而导致严重的训练不稳定性、受限的可扩展性，并产生了显著的内存访问开销。为应对这些挑战，我们提出了流形约束的超连接 (mHC)。这是一个通用框架，它将 HC 的残差连接空间投影到特定流形上，以恢复恒等映射特性，同时融合了严格的基础设施优化以确保效率。实证实验表明，mHC 能有效进行大规模训练，带来切实的性能提升与卓越的可扩展性。我们预计，mHC 作为 HC 的一种灵活且实用的扩展，将有助于更深入地理解拓扑架构设计，并为基础模型的演进提供有前景的方向。

Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

用于改进长上下文理解的 Mindscape-Aware 检索增强生成

人类理解长而复杂的文本，依赖于对内容的整体语义表征。这种全局视角有助于组织先验知识、解释新信息，并整合分散在文档中的证据，这正体现了心理学中所揭示的人类 Mindscape-Aware（心智景观感知）能力。当前的检索增强生成 (RAG) 系统缺乏这种指导，因此在处理长上下文任务时面临困难。本文提出了 Mindscape-Aware RAG (MiA-RAG)，这是首个为基于大语言模型的 RAG 系统赋予显式全局上下文感知能力的方法。MiA-RAG 通过分层摘要构建一个全局语义表征（即心智景观），并以此为基础指导检索和生成过程。这使得检索器能够形成信息更丰富的查询嵌入，同时使生成器能够在连贯的全局上下文中对检索到的证据进行推理。我们在多种长上下文和双语基准测试上评估了 MiA-RAG 在基于证据的理解和全局语义整合方面的性能。结果表明，MiA-RAG consistently surpasses baselines, and further analysis shows that it aligns local details with a coherent global representation, enabling more human-like long-context retrieval and reasoning.

InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

InsertAnywhere: 融合4D场景几何与扩散模型以实现逼真的视频对象插入

基于扩散模型的视频生成技术近期取得了显著进展，为可控视频编辑带来了新的可能。然而，由于对4D场景的理解有限，以及对遮挡和光照效应的处理不足，实现逼真的视频对象插入 (VOI) 仍然面临挑战。本文提出了 InsertAnywhere，这是一个新的 VOI 框架，能够实现几何一致的对象放置和外观忠实的视频合成。我们的方法首先采用一个4D感知的掩码生成模块，该模块重建场景几何，并在视频帧间传播用户指定的对象位置，同时确保时间连贯性和遮挡一致性。在此空间基础之上，我们扩展了一个基于扩散的视频生成模型，以联合合成插入的对象及其周围的局部变化（如光照和阴影）。为了进行有监督训练，我们引入了 ROSE++，这是一个光照感知的合成数据集，通过将 ROSE 对象移除数据集转换为三元组（包含对象移除后的视频、对象存在时的视频以及由 VLM 生成的参考图像）而构建。大量实验表明，我们的框架能够在多样化的真实世界场景中生成几何合理且视觉连贯的对象插入效果，其性能显著优于现有的研究模型和商业模型。

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

通过辅助损失耦合混合专家模型中的专家与路由器

混合专家 (Mixture-of-Experts, MoE) 模型缺乏明确的约束来确保路由器的决策与专家的能力良好匹配，这最终会限制模型性能。为解决此问题，我们提出了专家-路由器耦合 (expert-router coupling, ERC) 损失，这是一种轻量级辅助损失，旨在将路由器的决策与专家能力紧密耦合。我们的方法将每个专家的路由器嵌入 (router embedding) 视为分配给该专家的 Token 的代理 Token (proxy token)，并将扰动后的路由器嵌入输入专家以获取其内部激活 (internal activations)。ERC 损失对这些激活施加了两项约束：(1) 每个专家对其自身代理 Token 的激活必须高于对其他任何专家代理 Token 的激活。(2) 每个代理 Token 在其对应专家处激发的激活必须强于在其他任何专家处激发的激活。这些约束共同作用，确保每个路由器嵌入能准确表征其对应专家的能力，同时使每个专家专注于处理实际被路由至它的 Token。ERC 损失计算高效，仅需处理 n^2 个激活（n 为专家数量）。这意味着一个与批次大小无关的固定开销，不同于先前那些计算成本随 Token 数量（通常每批次达数百万）增长的耦合方法。通过对参数量从 30亿到 150亿的 MoE-LLMs 进行预训练，并基于数万亿 Token 进行广泛分析，我们验证了 ERC 损失的有效性。此外，ERC 损失还能在训练过程中对专家的专业化程度进行灵活控制和定量追踪，从而为理解 MoE 模型提供了宝贵洞见。

Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

Youtu-LLM: 释放轻量级大语言模型的原生智能体潜力

我们推出 Youtu-LLM，这是一个轻量级但功能强大的语言模型，它成功兼顾了高计算效率与原生智能体智能。与通常依赖知识蒸馏的小型模型不同，Youtu-LLM (1.96B) 采用从头预训练的方式，旨在系统性地发展其推理与规划能力。其关键技术进展如下：(1) 支持长上下文的紧凑架构：该模型基于密集的多潜在注意力 (MLA) 架构和一种新颖的 STEM 导向词汇表构建，支持长达 128k 的上下文窗口。这一设计使其能够在极小的内存开销下实现稳健的长上下文推理与状态追踪，非常适合长程智能体任务和推理任务。(2) 结构化的 "常识-STEM-智能体" 课程学习：我们构建了一个约 11T token 的大规模语料库，并采用多阶段训练策略。通过逐步将预训练数据的分布从通用常识转向复杂的 STEM 及智能体任务，我们确保模型获得的是深层的认知能力，而非浅层的任务对齐。(3) 可扩展的智能体中期训练：针对智能体中期训练，我们采用了多样化的数据构建方案，在数学、代码和工具使用等领域合成了丰富多样的行动轨迹。这些高质量数据使模型能够有效地内化规划与反思行为。广泛的评估表明，Youtu-LLM 为参数量小于 20 亿的大语言模型树立了新的性能标杆。在通用基准测试中，其性能可与更大的模型相媲美；而在智能体专项任务上，它则显著超越了现有的 SOTA 基线模型，这证明轻量级模型同样可以具备强大的内在智能体能力。

Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling

基于超图记忆改进多步 RAG 以进行长上下文复杂关系建模

多步检索增强生成 (RAG) 已成为一项广泛采用的策略，用于增强大语言模型 (LLM) 在需要全局理解和深度推理任务上的性能。许多 RAG 系统集成了工作记忆模块以整合检索到的信息。然而，现有的记忆设计主要充当被动存储器，仅用于积累孤立的事实，以压缩冗长输入并通过演绎生成新的子查询。这种静态特性忽略了原始事实间关键的高阶关联，而这些事实的组合往往能为后续步骤提供更强的指导。因此，其表示能力以及对多步推理和知识演进的影响有限，导致在长上下文处理中出现推理碎片化和全局理解能力薄弱的问题。我们提出了 HGMem，一种基于超图的记忆机制，它将记忆的概念从简单的存储扩展为一种动态、富有表现力的结构，以支持复杂推理和全局理解。在我们的方法中，记忆被表示为一个超图，其超边对应不同的记忆单元，从而能够在记忆内部逐步形成高阶交互。该机制围绕核心问题连接事实与思路，演进为一个一体化、情境化的知识结构，为后续步骤的深度推理提供有力支撑。我们在多个专为测试全局理解能力设计的挑战性数据集上评估了 HGMem。大量实验和深入分析表明，我们的方法能持续提升多步 RAG 的性能，并在多种任务上显著优于各强基线系统。

LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

LiveTalk: 通过改进的同策略蒸馏实现实时多模态交互式视频扩散

利用扩散模型进行实时视频生成，对于构建通用多模态交互式 AI 系统至关重要。然而，扩散模型通过迭代过程、结合双向注意力对所有视频帧进行同步去噪，这阻碍了实时交互。虽然现有的蒸馏方法可以使模型具备自回归特性并减少采样步数以缓解此问题，但这些方法主要集中于文生视频任务，导致人机交互显得不自然且效率低下。本文旨在实现一种基于多模态上下文（包括文本、图像和音频）的实时交互式视频扩散模型，以弥合这一差距。我们观察到，领先的同策略蒸馏方法 Self Forcing 在多模态条件输入下会面临挑战（出现闪烁、黑帧和质量下降等视觉伪影）。为此，我们研究了一种改进的蒸馏方案，该方案着重优化条件输入的质量，以及同策略优化的初始化和调度策略。在 HDTF、AVSpeech 和 CelebV-HQ 等多模态条件（音频、图像和文本）驱动的虚拟形象视频生成基准测试中，我们蒸馏得到的模型，在推理成本和延迟降低 20 倍的前提下，其视觉质量与相似或更大规模的全步长双向基线模型相当。此外，我们将该模型与音频语言模型以及长视频推理技术 Anchor-Heavy Identity Sinks 相结合，构建了 LiveTalk------一个实时多模态交互式虚拟形象系统。在我们精心构建的多轮交互基准上进行的系统级评估显示，LiveTalk 在多轮视频连贯性和内容质量方面均优于 Sora2、Veo3 等最先进的模型，同时将响应延迟从 1-2 分钟大幅降低至实时生成水平，从而实现了流畅无缝的人机多模态交互。

Yume-1.5: A Text-Controlled Interactive World Generation Model

Yume-1.5: 一个文本控制的交互式世界生成模型

近期的一些方法展现了利用扩散模型生成交互式、可探索世界的潜力。然而，这些方法大多面临关键挑战，例如参数量过大、依赖冗长的推理步骤以及历史上下文快速增长，这些问题严重限制了实时性能，并且缺乏文本控制生成能力。为解决这些挑战，我们提出了 \method，这是一个新颖的框架，用于从单张图像或文本提示生成逼真、交互且连续的世界。\method 通过一个精心设计的框架实现此目标，该框架支持基于键盘对生成的世界进行探索。该框架包含三个核心组件：(1) 一个集成了统一上下文压缩与线性注意力的长视频生成框架；(2) 一个由双向注意力蒸馏和增强文本嵌入方案驱动的实时流式加速策略；(3) 一种用于生成世界事件的文本控制方法。相关代码库已提供在补充材料中。

Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem

任其流动：基于 ROCK 与 ROLL 的智能体式构建，在开放智能体学习生态系统中打造 ROME 模型

智能体式构建 (Agentic crafting) 要求大语言模型 (LLM) 在现实环境中通过多轮操作来执行任务，具体包括采取行动、观察结果并迭代优化其生成的制品。尽管该能力至关重要，但开源社区目前仍缺乏一个系统化、端到端的生态系统来简化智能体的开发流程。为此，我们提出了智能体学习生态系统 (Agentic Learning Ecosystem, ALE)，这是一个旨在优化智能体大语言模型生产流水线的基础设施。ALE 包含三个核心组件：ROLL，一个用于权重优化的后训练 (post-training) 框架；ROCK，一个用于生成训练轨迹的沙盒环境管理器；以及 iFlow CLI，一个用于高效上下文工程 (context engineering) 的智能体框架。我们发布了 ROME (ROME is Obviously an Agentic Model)，这是一个基于 ALE 构建、并在超过一百万条轨迹上训练而成的开源智能体模型。我们的方法包含用于合成复杂行为的数据组合协议 (data composition protocols)，以及一种新颖的策略优化算法------基于交互的策略对齐 (Interaction-based Policy Alignment, IPA)。IPA 算法在语义交互块而非单个 Token 上分配信用，从而提升了长视野 (long-horizon) 训练的稳定性。在实证评估中，我们在一个结构化设置中对 ROME 进行了测试，并推出了 Terminal Bench Pro 基准测试，该基准在规模和污染控制方面均有改进。ROME 在 SWE-bench Verified 和 Terminal Bench 等多个基准测试中均展现出强劲性能，这证明了 ALE 基础设施的有效性。