每周AI论文速递(251222-251226)

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

DataFlow: 面向以数据为中心 AI 时代的统一数据准备与工作流自动化 LLM 驱动框架

大语言模型 (LLMs) 对高质量数据的需求快速增长,这使得对可扩展、可靠且语义丰富的数据准备管道的需求变得尤为迫切。然而,当前实践仍主要依赖临时脚本和定义松散的工作流,它们缺乏原则性的抽象,阻碍了可复现性,并对模型在环 (model-in-the-loop) 的数据生成支持有限。为应对这些挑战,我们提出了 DataFlow,一个统一且可扩展的 LLM 驱动数据准备框架。DataFlow 采用系统级抽象设计,实现了模块化、可复用和可组合的数据转换,并提供了类似 PyTorch 风格的管道构建 API,用以构建可调试和可优化的数据流。该框架包含近 200 个可复用操作符和六个领域通用管道,覆盖文本、数学推理、代码、Text-to-SQL、智能体驱动的检索增强生成 (Agent RAG) 以及大规模知识提取。为进一步提升易用性,我们引入了 DataFlow-Agent,它能够通过操作符合成、管道规划和迭代验证,自动将自然语言描述转换为可执行的管道。在六个代表性用例中,DataFlow 均能一致地提升下游 LLM 性能。我们的数学、代码和文本管道性能超越了精心构建的人工数据集和专门的合成基线:在 Text-to-SQL 任务上,其执行准确率较 SynSQL 最高提升 3%;在代码基准测试上平均提升 7%;在 MATH、GSM8K 和 AIME 基准上取得了 1 到 3 个百分点的性能增益。此外,由 DataFlow 生成的统一万样本 (10K) 数据集,使得基础模型的性能超越了在百万级 (1M) Infinity-Instruct 数据上训练的同类模型。这些结果表明,DataFlow 为可靠、可复现和可扩展的 LLM 数据准备提供了一个实用且高性能的底层支持,并为未来以数据为中心的 AI 发展奠定了系统级基础。

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

通过科学家工作流对齐评估大语言模型的科学通用智能

尽管科学 AI 领域取得了进展,但关于科学通用智能 (Scientific General Intelligence, SGI) ------ 即自主构思、探索并跨科学领域进行推理的能力 ------ 仍缺乏一个连贯的框架。我们提出了一个基于实践探究模型 (Practical Inquiry Model, PIM: 审议、构思、行动、感知) 的可操作 SGI 定义,并通过四个与科学家工作流对齐的任务来具体实现这一定义:深度研究、想法生成、干/湿实验 (dry/wet experiments) 以及实验推理。SGI-Bench 基准包含 1000 多个由专家精心策划的跨学科样本,其灵感来源于《科学》杂志提出的 125 个重大科学问题,可用于系统评估最先进的大语言模型。评估结果揭示了多方面的差距:尽管在步骤层面与人类工作流对齐,但深度研究任务的精确匹配率仍然很低 (10--20%);生成的想法缺乏可行性和细节;干实验任务中代码可执行性高,但执行结果的准确性低;湿实验方案的步骤序列保真度低;并且在多模态比较推理方面持续面临挑战。我们进一步引入了测试时强化学习 (Test-Time Reinforcement Learning, TTRL),该方法在模型推理阶段优化基于检索增强的新颖性奖励,从而能在不依赖参考答案的情况下提升生成假设的新颖性。综上所述,我们基于 PIM 的定义、以工作流为中心的基准测试以及实证分析,为开发能够真正推动科学发现进程的 AI 系统奠定了基础。

SemanticGen: Video Generation in Semantic Space

SemanticGen:语义空间视频生成

当前最先进的视频生成模型通常学习视频在 VAE (Variational Autoencoder) 潜在空间中的分布,并通过 VAE 解码器将其映射到像素空间。这种方法虽然能够生成高质量视频,但存在收敛速度慢的问题,并且在生成长视频时计算开销巨大。本文提出 SemanticGen,一种新颖的解决方案,通过在语义空间中进行视频生成来应对这些挑战。我们的核心观点是:由于视频本身存在固有冗余,生成过程应当始于一个紧凑的高层语义空间以进行全局规划与结构设计,随后再补充高频细节,而非直接使用双向注意力对海量的低层视频 Token 进行建模。SemanticGen 采用两阶段生成流程:第一阶段,一个扩散模型生成紧凑的语义视频特征,这些特征定义了视频的全局布局;第二阶段,另一个扩散模型以这些语义特征为条件,生成 VAE 潜在表示,进而产生最终视频输出。我们观察到,相较于在 VAE 潜在空间中生成,在语义空间中进行生成能实现更快的收敛速度。此外,我们的方法在扩展到长视频生成任务时,依然保持高效且计算成本可控。大量实验表明,SemanticGen 能够生成高质量视频,其性能优于当前最优方法和多个强基线模型。

Step-DeepResearch Technical Report

Step-DeepResearch 技术报告

随着大语言模型 (LLM) 向自主 AI 智能体 (AI Agent) 演进,深度研究 (Deep Research) 已成为一项关键的评估维度。然而,现有的学术基准(如 BrowseComp)往往难以满足现实世界对开放式探索研究的需求,这类研究需要强大的意图识别、长期决策和跨来源验证能力。为此,我们推出了 Step-DeepResearch,一个高性价比的端到端智能体。我们提出了一种基于原子化能力 (Atomic Capabilities) 的数据合成策略,用以强化任务规划和报告撰写能力,并结合了从智能体行为训练、监督微调 (SFT) 到强化学习 (RL) 的渐进式训练路径。该方法通过一个检查表式评估器 (Checklist-style Judger) 得到增强,显著提升了系统的鲁棒性。此外,为了填补中文领域在深度研究评估方面的空白,我们针对真实的深度研究场景建立了 ADR-Bench 基准。实验结果表明,Step-DeepResearch (32B) 在 Scale AI Research Rubrics 评估中取得了 61.4% 的得分。在 ADR-Bench 上,其性能显著优于同类模型,并能与 OpenAI、Gemini DeepResearch 等最先进 (SOTA) 的闭源模型相媲美。这些发现证明,通过精细化的训练,中等规模的模型能够以业界领先的性价比实现专家级的能力。

TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times

TurboDiffusion: 将视频扩散模型加速 100-200 倍

我们提出了 TurboDiffusion,这是一个视频生成加速框架,能够在保持视频质量的同时,将端到端的扩散模型生成过程加速 100 至 200 倍。TurboDiffusion 主要通过以下几个组件实现加速:(1) 注意力机制加速:TurboDiffusion 采用低比特 SageAttention 和可训练的稀疏线性注意力 (Sparse-Linear Attention, SLA) 来加速注意力计算。(2) 步数蒸馏:TurboDiffusion 使用 rCM 方法进行高效的步数蒸馏。(3) W8A8 量化:TurboDiffusion 将模型参数和激活值量化为 8 位 (W8A8),以加速线性层运算并减少模型体积。此外,该框架还集成了其他多项工程优化技术。 我们在 Wan2.2-I2V-14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P 以及 Wan2.1-T2V-14B-480P 模型上进行了实验。结果表明,即使在单块 RTX 5090 GPU 上,TurboDiffusion 也能实现 100-200 倍的视频生成加速,同时生成视频的质量与原始方法相当。包含模型检查点及易于使用代码的 GitHub 仓库地址为:github.com/thu-ml/Turb...

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

PhysBrain: 人类自我中心数据作为从视觉语言模型到物理智能的桥梁

机器人的泛化能力依赖于物理智能:即在自我中心感知与行动条件下,对状态变化、密集接触交互以及长时程规划进行推理的能力。然而,大多数视觉语言模型主要基于第三人称数据进行训练,这为人形机器人带来了根本性的视角失配。由于成本高昂且多样性有限,扩展机器人自我中心数据的采集仍不现实;而大规模的人类自我中心视频则提供了一个可扩展的替代方案,它们天然地捕捉了丰富的交互语境与因果结构。关键挑战在于如何将原始的自我中心视频转化为结构化且可靠的具身训练监督信号。为此,我们提出了一个 Egocentric2Embodiment 转换流程,该流程将第一人称视频转化为具有强制证据基础和时序一致性的、多层次且模式驱动的视觉问答监督信号,从而能够大规模构建 Egocentric2Embodiment 数据集 (E2E-3M)。通过在 E2E-3M 数据集上进行训练,我们得到了一个具备自我中心感知能力的具身大脑,称为 PhysBrain。PhysBrain 在自我中心理解方面表现出显著提升,尤其是在 EgoThink 任务上的规划能力。它提供了一个具备自我中心感知能力的初始化状态,使得视觉语言-动作模型的微调过程样本效率更高,并在 SimplerEnv 上取得了更高的成功率 (53.9%),这证明了从人类自我中心监督信号到下游机器人控制的有效迁移。

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Robust-R1:基于退化感知推理的鲁棒视觉理解

在极端现实世界的视觉退化条件下,多模态大语言模型 (MLLM) 难以维持可靠的性能,这限制了其实际应用的鲁棒性。现有的鲁棒多模态大语言模型主要依赖于隐式训练或适应方法,这些方法仅侧重于提升视觉编码器的泛化能力,导致模型可解释性有限且优化过程相对孤立。为克服这些局限,我们提出了 Robust-R1,这是一个通过结构化推理链来显式建模视觉退化的新型框架。我们的方法整合了三个核心部分:(i) 为奠定退化感知推理基础而进行的监督微调,(ii) 为实现精准退化参数感知的奖励驱动对齐,以及 (iii) 能够适应退化强度的动态推理深度缩放。为支持此方法,我们构建了一个包含 1.1 万个样本的专用数据集,其中涵盖了在四个关键现实视觉处理阶段合成的真实退化。每个样本均标注有结构化推理链,链中连接了退化参数、感知影响、原始语义推理链及最终结论。全面的评估结果表明,Robust-R1 具备最先进的鲁棒性:它在现实世界退化基准 R-Bench 上的表现优于所有通用及鲁棒基线模型,并且在 MMMB、MMStar 和 RealWorldQA 基准上面临多强度对抗性退化时,依然保持了卓越的抗退化性能。

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

棱镜假说:通过统一自编码调和语义与像素表示

跨模态的深度表示本质上是相互交织的。本文中,我们系统地分析了多种语义与像素编码器的频谱特性。有趣的是,我们的研究揭示了一个极具启发性且鲜有探索的对应关系:编码器的特征频谱与其功能角色密切相关------语义编码器主要捕获编码抽象含义的低频分量,而像素编码器则额外保留了传达细粒度细节的高频信息。这一发现提供了一个统一的视角,将编码器行为与其底层频谱结构关联起来。我们将其定义为棱镜假说,即每种数据模态都可被视为自然世界在共享特征频谱上的投影,其作用类似于棱镜。基于此见解,我们提出了统一自编码 (UAE),该模型通过一种创新的频带调制器来调和语义结构与像素细节,使二者能够无缝共存。在 ImageNet 和 MS-COCO 基准上进行的大量实验表明,我们的 UAE 能够有效地将语义抽象与像素级保真度统一到单一潜在空间中,并取得了最先进的性能。

Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

自底向上策略优化:语言模型策略隐含内部策略

现有的强化学习 (RL) 方法将大语言模型 (LLMs) 视为单一的统一策略,忽略了其内部机制。因此,理解策略在不同层和模块间的演变过程,对于实现更具针对性的优化以及揭示复杂的推理机制至关重要。本文通过利用 Transformer 残差流的固有划分,以及隐藏状态与解嵌入矩阵的合成结果与最终可采样策略之间的等价性,对语言模型策略进行分解。这种分解揭示了内部层策略 (Internal Layer Policies),其对应于各独立层的贡献;以及内部模块策略 (Internal Modular Policies),其与每层中的自注意力机制和前馈网络 (FFN) 组件相关联。通过分析内部策略的熵,我们发现:(a) 早期层保持高熵以支持探索,顶层则收敛至接近零的熵以实现精细化,且收敛模式因模型系列不同而有所差异。(b) Llama 的预测空间在最后一层迅速收敛,而 Qwen 系列模型,尤其是 Qwen3,则展现出一种更接近人类、渐进结构化的推理模式。受这些发现启发,我们提出了自底向上策略优化 (Bottom-up Policy Optimization, BuPO),这是一种新颖的 RL 范式,可在训练早期直接优化内部层策略。通过在底层对齐训练目标,BuPO 重构了基础推理能力,并取得了卓越的性能。在复杂推理基准上进行的大量实验证明了我们方法的有效性。我们的代码可在 github.com/Trae1ounG/B... 获取。

When Reasoning Meets Its Laws

当推理遇见其定律

尽管大推理模型 (Large Reasoning Models, LRMs) 性能卓越,但其推理行为常常有违直觉,导致推理能力未能达到最优。为了从理论层面形式化所期望的推理行为,本文提出了推理定律 (Laws of Reasoning, LoRe) 这一统一框架,用以刻画大推理模型内在的推理模式。我们首先提出了计算定律,其核心假设是推理计算量应与问题复杂度呈线性关系。除了计算量,我们还通过补充的准确率定律对推理定律进行了扩展。由于问题复杂度在实践中难以量化,我们借助该定律的两个可检验属性------单调性与组合性------来验证这些假设。为此,我们引入了 LoRe-Bench 基准测试,用于系统性地评估大推理模型的这两个可处理属性。评估结果表明,大多数推理模型具备合理的单调性,但缺乏组合性。针对此问题,我们开发了一种有效的微调方法,以强制模型满足计算定律的组合性要求。大量的实证研究表明,更好地遵循计算定律能够在多个基准测试上持续提升模型的推理性能,并揭示出不同属性与定律之间的协同效应。项目页面:lore-project.github.io/

Latent Implicit Visual Reasoning

潜在隐式视觉推理

尽管大型多模态模型(LMMs)已取得显著进展,但其本质上仍以文本为中心,将语言作为核心推理模态。因此,它们在处理以视觉为主的推理任务时能力有限。近期的一些方法尝试通过利用辅助图像、深度图或图像裁剪来监督中间视觉步骤,以解决此问题。然而,这些策略为"有用"的视觉抽象形态设定了限制性先验,带来了高昂的标注成本,且跨任务泛化能力较差。为克服这一关键局限,我们提出了一种任务无关的机制,它能训练 LMMs 自主发现并利用视觉推理标记,而无需任何显式监督。这些标记具有全局注意力,并能以任务自适应的方式对图像进行重新编码,从而使模型能够提取相关的视觉信息,无需依赖人工设计的监督信号。我们的方法性能优于直接微调,在多种视觉中心任务上------包括那些中间抽象难以明确定义的任务------均取得了最先进的成果,同时也能很好地泛化至多任务指令微调场景。

LongVideoAgent: 基于多智能体的长视频推理

LongVideoAgent: 基于多智能体的长视频推理

多模态大语言模型以及利用工具进行长视频问答的系统所取得的进展,展现了处理长达数小时视频内容并进行推理的潜力。然而,现有方法大多仍将视频内容压缩为有损摘要,或依赖于功能有限的工具集,这导致时间定位能力被削弱,且容易遗漏细粒度线索。为此,我们提出一个多智能体框架:一个主控大语言模型负责协调一个定位智能体来锁定与问题相关的视频片段,以及一个视觉智能体来提取有针对性的文本化视觉观察。主控智能体在预设的步骤限制内进行规划,并通过强化学习进行训练,旨在实现简洁、准确且高效的多智能体协作。该设计通过定位机制使主控智能体能专注于相关片段,利用视觉细节补充字幕信息,并生成可解释的推理轨迹。在我们新提出的 LongTVQA 和 LongTVQA+ 数据集(这两个剧集级数据集由 TVQA/TVQA+ 聚合而成)上,我们的多智能体系统性能显著优于多个强大的非智能体基线模型。实验还表明,强化学习能进一步强化已训练智能体的推理与规划能力。代码与数据将在 longvideoagent.github.io/ 发布。

Region-Constraint In-Context Generation for Instructional Video Editing

面向教学视频编辑的区域约束上下文生成

上下文生成 (In-context generation) 范式近期在教学图像编辑领域展现出强大能力,兼具数据高效性与合成高质量的特点。然而,将这种上下文学习应用于基于指令的视频编辑并非易事。若不指定编辑区域,结果可能出现编辑区域不准确,以及在去噪过程中编辑区域与非编辑区域之间发生 Token 干扰的问题。为解决这些问题,我们提出了 ReCo,一种新的教学视频编辑范式,其创新之处在于深入探究了上下文生成过程中编辑区域与非编辑区域之间的约束建模。技术上,ReCo 将源视频与目标视频沿空间(宽度)维度拼接,进行联合去噪。为校准视频扩散学习,ReCo 利用了两项正则化项:潜在正则化与注意力正则化,它们分别作用于单步反向扩散去噪后的潜在表示 (latents) 和注意力图 (attention maps)。潜在正则化旨在增大源视频与目标视频之间编辑区域的潜在差异,同时减小非编辑区域的差异,从而强化对编辑区域的修改,并抑制非编辑区域意外内容的生成。注意力正则化则抑制目标视频编辑区域中的 Token 对源视频对应区域 Token 的注意力,以此减轻目标视频生成新对象时来自源视频对应 Token 的干扰。此外,我们提出了一个大规模高质量的视频编辑数据集 ReCo-Data,包含 50 万对指令-视频样本,以支持模型训练。在四项主流基于指令的视频编辑任务上进行的大量实验,验证了我们所提方案的优越性。

Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

Seed-Prover 1.5:通过经验学习精通本科级定理证明

近期,大语言模型 (LLM) 在生成严谨数学证明方面取得了重大进展。然而,利用大语言模型在形式化语言 (如 Lean) 中进行定理证明仍然面临挑战且计算开销巨大,尤其是在处理本科及以上难度的问题时。本文提出了 Seed-Prover 1.5 ,这是一个通过大规模智能体强化学习训练的形式化定理证明模型,并配套一个高效的测试时扩展工作流。该模型在强化学习过程中,通过与 Lean 等工具进行广泛交互,持续积累经验,从而显著提升了形式化定理证明的能力与效率。此外,结合自然语言证明领域的最新进展,我们的测试时扩展工作流有效弥合了自然语言与形式化语言之间的鸿沟。与现有最先进方法相比,Seed-Prover 1.5 在更小的计算预算下实现了更优的性能:它解决了 88% 的 PutnamBench (本科级)、80% 的 Fate-H (研究生级) 以及 33% 的 Fate-X (博士级) 问题。尤为突出的是,利用本系统,我们在 9 小时内解决了 2025 年普特南数学竞赛 12 道题目中的 11 道。我们的研究表明,由高质量形式化反馈驱动的经验学习规模化扩展,在形式化数学推理领域拥有巨大的发展潜力。

Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

学习进行 4D 推理:视觉语言模型的动态空间理解

视觉语言模型 (VLM) 在通用理解任务上表现出色,但在动态空间推理 (DSR) 方面仍显薄弱。DSR 指的是对物体几何形状及其在三维空间中随时间演变的关系进行推理。这种薄弱主要归因于可扩展的 4D 感知训练资源匮乏。为弥合在数据集、基准和模型方面的这一差距,我们推出了 DSR 套件。首先,我们提出一种自动化流水线,能够从真实场景视频中为 DSR 任务生成多项选择题对。该流水线利用现代视觉基础模型,提取丰富的几何与运动信息,包括相机位姿、局部点云、物体掩膜、朝向以及三维轨迹。这些几何线索可用于构建用于模型训练的 DSR-Train 数据集,以及经过人工进一步精炼、用于评估的 DSR-Bench 基准。与先前研究相比,我们的数据强调以下特性:(i) 源自真实场景视频,(ii) 具备物体级和场景级的三维信息要求,(iii) 包含视点变换,(iv) 涉及多物体交互,以及 (v) 提供细粒度、分步骤的答案。除了数据贡献,我们还提出一个轻量级的几何选择模块 (GSM),用于将几何先验无缝集成到 VLM 中。该模块能压缩问题语义,并从预训练的 4D 重建先验中提取与问题相关的知识,将其编码为一组紧凑的几何 token。这种有针对性的知识提取避免了无关知识对模型的干扰。实验表明,将 DSR-Train 和 GSM 集成到 Qwen2.5-VL-7B 模型中,能显著提升其动态空间推理能力,同时保持了在通用视频理解基准上的准确率。

相关推荐
玄同7652 小时前
Python 真零基础入门:从 “什么是编程” 到 LLM Prompt 模板生成
人工智能·python·语言模型·自然语言处理·llm·nlp·prompt
虹科网络安全2 小时前
艾体宝洞察 | 生成式AI上线倒计时:Redis如何把“延迟”与“幻觉”挡在生产线之外?
数据库·人工智能·redis
Java后端的Ai之路2 小时前
【神经网络基础】-深度学习框架学习指南
人工智能·深度学习·神经网络·机器学习
熬夜敲代码的小N2 小时前
从SEO到GEO:AI时代内容优化的范式革命
大数据·人工智能·计算机网络
FakeOccupational2 小时前
【经济学】 基本面数据(Fundamental Data)之 美国劳动力报告&非农就业NFP + ADP + 美国劳动力参与率LFPR
开发语言·人工智能·python
smileNicky2 小时前
2025 技术创作与实战:深耕数据库、中间件与 AI 应用的进阶之路
数据库·人工智能·中间件
凌乱风雨12113 小时前
使用Vite+ Lit 构建webcomponent 组件
人工智能·语言模型
weisian1513 小时前
入门篇--知名企业-3-Google DeepMind:从AlphaGo到AGI,AI如何改写人类未来?
人工智能
郝学胜-神的一滴3 小时前
机器学习数据集完全指南:从公开资源到Sklearn实战
人工智能·python·程序人生·机器学习·scikit-learn·sklearn