The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain
自 John von Neumann 和 Alan Turing 以来,计算系统与大脑的关联一直激励着先驱理论家。诸如大脑这类均匀无标度生物网络具有强大特性,包括随时间推移的泛化能力,而这是机器学习迈向通用推理模型的主要障碍。
我们提出 "龙之雏形" (BDH) ,这是一种新的大语言模型架构,基于由 n 个局部交互神经元粒子构成的无标度生物启发网络。BDH 兼具扎实的理论基础与固有可解释性,且未牺牲类 Transformer 性能。
BDH 是一种实用、高性能、基于注意力机制的最先进状态空间序列学习架构。除作为图模型外,BDH 还支持 GPU 友好的实现形式,并遵循类 Transformer 的缩放定律:实证表明,在参数量 (10M 至 1B) 和训练数据相同的条件下,BDH 在语言与翻译任务上达到 GPT2 相当的性能。
BDH 可表征为脑模型。其推理过程中的工作记忆完全依赖采用尖峰神经元的赫布学习突触可塑性。我们通过实验证实,当 BDH 处理语言输入并感知或推演特定概念时,特定单个突触会增强连接强度。BDH 的神经元交互网络呈现高模块化与重尾度分布图结构,该模型具有生物合理性,揭示了人类神经元实现语言功能的一种潜在机制。
BDH 专为可解释性设计。其激活向量具稀疏性与正值特性,我们在语言任务中验证了 BDH 的单一语义性。状态可解释性超越神经元与模型参数的可解释性,是 BDH 架构的固有特征。
LongLive: Real-time Interactive Long Video Generation
我们提出 LongLive,一种用于实时交互式长视频生成的帧级自回归 (AR) 框架。长视频生成在效率和质量方面均面临挑战:扩散模型及扩散强制模型能生成高质量视频,但因采用双向注意力机制而导致效率低下;因果注意力 AR 模型支持 KV 缓存以实现快速推理,但在长视频训练中受内存限制,常出现质量下降问题。此外,除静态提示生成外,流式提示输入等交互功能对动态内容创作至关重要,可支持用户实时引导叙事流程。这类交互需求显著提升了系统复杂性,尤其在提示切换过程中需确保视觉连贯性与语义一致性。
为应对这些挑战,LongLive 采用因果帧级 AR 设计,集成以下关键技术:KV 重缓存机制通过新提示刷新缓存状态,实现平滑无缝的提示切换;流式长视频调优技术支持长序列训练,并保持训练与推理场景的一致性(长训练-长测试);短窗口注意力与帧级注意力汇聚点(简称帧汇聚)相结合,在提升生成速度的同时维持长程一致性。基于这些设计,LongLive 仅用 32 GPU 天即可将 13 亿参数的短视频模型微调至支持分钟级生成。在单张 NVIDIA H100 GPU 上推理时,系统可保持 20.7 FPS 的生成速度,并在 VBench 评测的短视频与长视频任务中均表现优异,最高支持 240 秒视频生成。此外,LongLive 支持 INT8 量化推理,仅带来轻微质量损失。
MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use
MCPMark:一个用于压力测试现实且全面的 MCP 使用场景的基准
MCP (Model Context Protocol) 标准化了大语言模型 (LLM) 与外部系统的交互方式,为通用 AI 智能体 (AI Agent) 奠定了基础。然而,现有的 MCP 基准测试范围仍显局限:它们主要关注读密集型任务或交互深度有限的任务,未能充分反映真实工作流程的复杂性和现实性。为弥补这一不足,我们提出了 MCPMark,这是一个旨在更真实、更全面地评估 MCP 使用情况的基准。它包含 127 个由领域专家与 AI 智能体合作创建的高质量任务。每个任务均从一个精心设计的初始状态开始,并附带一个用于自动验证的程序脚本。这些任务要求与环境进行更丰富多样的交互,涉及广泛的创建、读取、更新与删除 (CRUD) 操作。我们采用一个在工具调用循环中运行的轻量级智能体框架,对前沿大语言模型进行了全面评估。实验结果表明,性能最佳的模型 gpt-5-medium 仅达到 52.56% 的 pass@1 和 33.86% 的 pass^4,而其他被广泛认可的强模型,如 claude-sonnet-4 和 o3,则低于 30% 的 pass@1 和 15% 的 pass^4。平均而言,大语言模型处理每个任务需要 16.2 个执行轮次和 17.4 次工具调用,这些数值显著超越了以往 MCP 基准测试的结果,凸显了 MCPMark 的压力测试特性。
EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning
在多回合稀疏奖励环境中训练大语言模型智能体时,完成单个任务需在一个回合内进行超过30次交互,这对强化学习构成了根本性挑战。我们发现了该场景特有的关键失效模式:探索-利用级联失效。该级联起始于早期策略的过早收敛------稀疏奖励反馈导致智能体持续采用有缺陷的低熵策略;随后进入晚期策略崩溃阶段,传统熵正则化反而会引发破坏训练稳定性的无序探索。我们提出熵正则化策略优化(EPO)框架,通过三重协同机制打破该失效循环:(1)在多回合环境中引入熵正则化以增强探索能力;(2)采用熵平滑正则化器,将策略熵约束在历史均值范围内以避免剧烈波动;(3)设计基于训练阶段的自适应加权机制,动态平衡探索与利用。理论分析表明,EPO在保证收敛性的同时可实现熵方差的单调递减。实验结果显示,EPO在ScienceWorld环境中性能提升最高达152%,在ALFWorld环境中提升达19.8%。本研究证明,多回合稀疏奖励环境需要与传统强化学习截然不同的熵控制机制,这对大语言模型智能体训练具有重要启示。
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play
Vision-Zero:基于战略性游戏化自我对弈的可扩展VLM自我优化方法
尽管强化学习 (RL) 能有效提升视觉语言模型 (VLMs) 的推理能力,但现有方法仍严重依赖需要大量人工构建与验证的数据集,导致训练成本极高,从而制约了VLMs的实际应用。为解决此问题,我们提出Vision-Zero------一个领域无关框架,通过从任意图像对生成竞技性视觉游戏来实现VLM的自我优化。该框架具备三大核心特征:(1) 战略性自我对弈框架:Vision-Zero采用类似"谁是卧底"的游戏机制训练VLMs,使模型能在多角色环境中进行策略推理与交互。通过游戏化交互,模型无需人工标注即可自主生成训练数据。(2) 任意图像的游戏化转换:与现有游戏化框架不同,Vision-Zero能从任意图像生成游戏,显著增强模型在多样化领域的推理能力,并展现出对各类任务的强泛化性。我们通过三类图像数据集验证了该特性:基于CLEVR的合成场景、图表数据以及真实世界图像。(3) 可持续性能提升:我们提出迭代自我对弈策略优化算法 (Iterative-SPO),该创新算法在自我对弈与带可验证奖励的强化学习 (RLVR) 间交替训练,有效缓解了单纯自我对弈导致的性能停滞问题,实现了长期稳定的性能提升。尽管完全使用无标注数据,Vision-Zero在推理、图表问答及视觉中心理解任务中均达到了最先进性能,超越了许多基于人工标注的方法。相关模型与代码已发布于 github.com/wangqinsi1/...
Quantile Advantage Estimation for Entropy-Safe Reasoning
具有可验证奖励的强化学习 (RLVR) 能够强化大语言模型的推理能力,但训练过程常在熵崩溃与熵爆炸之间波动。我们将这两种风险归因于无价值强化学习 (如 GRPO 和 DAPO) 中使用的均值基线,该基线在奖励出现异常值时会对负优势样本进行不当惩罚。我们提出分位数优势估计 (QAE),用分组 K-分位数基线替代均值。QAE 引入了响应级别的双模式机制:对于困难查询 (p <= 1 - K),它强化少数成功案例;对于简单查询 (p > 1 - K),它针对剩余失败案例。在一阶 softmax 更新条件下,我们证明了两侧熵安全性,给出了一步熵变化的下界和上界,从而抑制爆炸并防止崩溃。实证表明,这一微小修改能稳定熵、稀疏化信用分配 (经调优的 K 值下,约 80% 的响应获得零优势),并在 AIME 2024/2025 和 AMC 2023 数据集上为 Qwen3-8B/14B-Base 模型带来持续的 pass@1 提升。这些结果指出,基线设计------而非 token 级启发式方法------是扩展 RLVR 的主要机制。
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search
DeepSearch:通过蒙特卡洛树搜索克服基于可验证奖励的强化学习瓶颈
尽管基于可验证奖励的强化学习 (RLVR) 已成为在大语言模型 (LLM) 中发展高级推理能力的关键组成部分,但现有研究表明,在数千次优化步骤后会出现训练平台期,表现为计算资源投入增加而性能增益显著下降。这一局限源于当前 RLVR 方法中固有的稀疏探索模式:模型依赖有限的模拟轨迹,往往遗漏关键推理路径,且无法系统覆盖解空间。本文提出 DeepSearch 框架,它将蒙特卡洛树搜索直接集成到 RLVR 训练中。与现有仅在校准阶段使用树搜索的方法不同,DeepSearch 将结构化搜索嵌入训练迭代过程,实现了跨推理步骤的系统性探索和细粒度信用分配。通过训练阶段的深入探索,DeepSearch 解决了探索不足这一根本瓶颈问题,从而缓解了长期训练中性能提升逐渐衰减的现象。我们的核心贡献包括:(1) 全局前沿节点选择策略,优先处理搜索树中潜力节点;(2) 熵引导的选择机制,识别高置信度路径用于监督训练;(3) 支持解缓存的自适应经验回放缓冲区训练,以提升效率。在数学推理基准测试上的实验表明,DeepSearch 实现了 62.95% 的平均准确率,为 15 亿参数推理模型确立了新性能标杆------其 GPU 耗时仅为扩展训练方法的 1/5.7。这些结果凸显了策略性探索相对于暴力缩放的重要性,证明了算法创新对推动 RLVR 方法论发展的潜力。DeepSearch 通过系统性搜索而非延长计算时间,为扩展推理能力开辟了新方向。
SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention
SLA:通过可微调稀疏线性注意力突破扩散 Transformer 的稀疏性局限
在扩散 Transformer (DiT) 模型中,视频生成任务因序列长度过大及注意力机制的二次计算复杂度,导致注意力延迟成为主要性能瓶颈。我们发现注意力权重可解构为两部分:少数高秩的大权重与多数极低秩的剩余权重。这一发现表明,可对前者采用稀疏加速策略,对后者采用低秩加速方案。基于此,我们提出可训练注意力机制 SLA (稀疏线性注意力),通过融合稀疏注意力与线性注意力来加速扩散模型。SLA 将注意力权重划分为关键、边缘和可忽略三类:对关键权重保留 O(N^2) 计算,对边缘权重采用 O(N) 线性注意力,完全忽略可忽略权重。所有计算被融合至单一 GPU 内核,同时支持前向传播与反向传播。经过 SLA 少量步骤的微调后,DiT 模型的注意力计算量降低至 1/20,在保持生成质量不变的前提下实现显著加速。实验表明,SLA 在维持端到端生成质量的同时将注意力计算量减少 95%,性能优于基线方法。此外,我们为 SLA 开发的高效 GPU 内核在 Wan2.1-1.3B 模型上带来 13.7 倍的注意力计算加速与 2.2 倍的端到端视频生成加速。
MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing
我们推出 MinerU2.5------一个具有 12 亿参数的文档解析视觉语言模型,该模型在保持卓越计算效率的同时实现了最先进的识别精度。本方法采用由粗到精的两阶段解析策略,将全局布局分析与局部内容识别进行解耦处理。在第一阶段,模型通过对降采样图像进行高效布局分析来识别结构元素,从而避免处理高分辨率输入带来的计算开销。在第二阶段,模型基于全局布局的引导,从原始图像中提取原始分辨率区域进行针对性内容识别,有效保留密集文本、复杂公式及表格中的细粒度特征。为支撑此策略,我们开发了完整的数据生成引擎,为预训练与微调阶段构建了多样化的大规模训练数据集。最终,MinerU2.5 展现出强大的文档解析能力,在多项基准测试中达到最先进性能,在各类识别任务上均超越通用模型与领域专用模型,同时维持显著更低的计算成本。
LongCodeZip: Compress Long Context for Code Language Models
长上下文下的代码生成正日益关键,因为大语言模型 (LLMs) 需要基于代码库中的大量信息进行推理。尽管近期进展使代码 LLMs 能够处理长输入,但高昂的 API 成本和生成延迟问题仍是主要瓶颈。现有上下文修剪技术(如 LLMLingua)在通用文本上表现良好,但忽略了代码特有的结构和依赖关系,导致编程任务性能不佳。本文提出 LongCodeZip,一种专为代码 LLMs 设计的新型即插即用压缩框架。LongCodeZip 采用双阶段策略:(1) 粗粒度压缩,基于指令的条件困惑度识别并排序函数级块,仅保留最相关函数;(2) 细粒度压缩,将保留函数按困惑度分割为块,并在自适应 token 预算下选择最优子集以最大化相关性。在代码补全、摘要和问答等多任务评估中,LongCodeZip 持续优于基线方法,在保持任务性能的同时实现高达 5.6 倍的压缩比。通过有效缩减上下文大小并保留关键信息,LongCodeZip 使 LLMs 能更好地扩展到现实世界的大规模代码场景,提升代码智能应用的效率与能力。
GEM: A Gym for Agentic LLMs
大语言模型(LLMs)的训练范式正从静态数据集转向基于经验的学习,智能体通过与环境交互获取技能。为支持这一转变,我们推出GEM(通用经验生成器),一个专为LLMs时代设计的开源环境模拟器。类似于传统强化学习(RL)中的OpenAI-Gym,GEM提供标准化的环境-智能体接口框架,包括支持高吞吐量的异步向量化执行,以及易于扩展的灵活封装器。GEM还具备多样化的环境集合、强大的集成工具,以及演示在五种流行RL训练框架中使用GEM的单文件示例脚本。此外,我们基于带有返回批量归一化(ReBN)的REINFORCE算法,在24个环境中提供了一套基线方法------与GRPO不同,该方法兼容密集每轮奖励的完整RL设置,并提供更优的信用分配。我们进一步利用GEM在单轮和多轮设置中对PPO、GRPO和REINFORCE进行公平基准测试,以揭示算法设计差异。最后,GEM除作为训练环境外,还可用作便捷的评估工具包。我们希望该框架能加速未来智能体大语言模型的研究。
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
扩散模型彻底革新了图像和视频生成领域,实现了前所未有的视觉质量。然而,其对Transformer架构的依赖导致计算成本极高,尤其在生成长视频时更为明显。近期研究通过从短时域双向教师模型进行知识蒸馏,探索了长视频生成的自回归方法。但由于教师模型无法合成长视频,学生模型在超出训练时域进行外推时,往往会出现显著的质量下降,这源于连续潜在空间中的错误累积。本文提出一种简单有效的方法,可在无需长视频教师监督或长视频数据集重新训练的情况下,缓解长时域视频生成的质量下降问题。该方法的核心是利用教师模型的丰富知识,通过从自生成的长视频中采样片段来指导学生模型。我们的方法在将视频长度扩展至教师模型能力的20倍时,仍能保持时间一致性,同时避免过度曝光和错误累积等常见问题,且无需像先前方法那样重新计算重叠帧。当增加计算资源时,本方法可生成长达4分15秒的视频,占基础模型位置嵌入支持最大跨度的99.9%,比基线模型长50倍以上。基于标准基准和我们提出的改进基准的实验表明,该方法在保真度和一致性方面均大幅优于基线方法。长时域视频演示请访问:self-forcing-plus-plus.github.io/
Variational Reasoning for Language Models
我们提出了一种语言模型的变分推理框架,将思维轨迹视为隐变量,并利用变分推断进行优化。从证据下界 (ELBO) 出发,我们将其扩展为多轨迹目标以获得更紧的边界,并提出一种前向KL公式,以稳定变分后验的训练。我们进一步证明,拒绝采样微调和二元奖励强化学习 (包括GRPO) 可被解释为局部前向KL目标,其中模型准确性的隐式加权自然源自推导过程,并揭示了一个先前未被关注的、对更简单问题的偏差。我们在多种推理任务上对Qwen 2.5和Qwen 3模型系列进行了实证验证。总体而言,本研究提供了一个理论严谨的概率视角,统一了变分推断与强化学习类方法,并推导出稳定的目标,以提升语言模型的推理能力。我们的代码公开于:github.com/sail-sg/var...
Language Models Can Learn from Verbal Feedback Without Scalar Rewards
大语言模型通常采用基于人类或AI反馈的强化学习进行训练,但这类方法往往将细致的反馈压缩为标量奖励,从而丢失了大部分信息内容并导致尺度失衡问题。我们提出将语言反馈视为条件信号。受文本到图像生成领域中语言先验的启发(该机制能够根据未见的提示生成新颖输出),我们引入了反馈条件策略(FCP)。FCP直接通过响应-反馈配对数据进行学习,利用离线数据的最大似然训练来估计反馈条件后验分布。我们还开发了在线自举阶段,策略在正面反馈条件下生成响应并接收新反馈以实现自我优化。这种方法将反馈驱动学习重新框架为条件生成任务而非奖励优化问题,为大语言模型直接从语言反馈中学习提供了更具表达能力的途径。代码已发布于 github.com/sail-sg/fee...
Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning
赢得剪枝博弈:面向高效监督微调的样本与Token联合剪枝统一方法
随着监督微调 (Supervised Fine-Tuning, SFT) 从轻量级后训练步骤发展为计算密集型阶段,其规模已堪比模型中期训练,数据效率对于在严格预算下优化大语言模型 (Large Language Models, LLMs) 至关重要。现有数据剪枝方法存在设计割裂的问题:它们仅单独在样本级别或Token级别操作,无法实现两个维度的联合优化。这种分离导致显著效率低下------高价值样本中可能仍包含冗余Token,而Token级别剪枝常会丢弃单个样本中嵌入的关键指令或修正信息。为解决这一瓶颈,我们提出了误差-不确定性 (Error-Uncertainty, EU) 平面,这是一个诊断框架,能够联合表征训练数据在样本和Token维度上的异构效用。基于该洞察,我们提出象限微调 (Quadrant-based Tuning, Q-Tuning),一个统一框架,通过策略性协调样本剪枝与Token剪枝来优化流程。Q-Tuning采用两阶段策略:首先进行样本级分选,保留富含信息性误解或校准信号的样本;随后实施非对称Token剪枝策略,利用上下文感知评分机制,仅从误解样本中剪除次要Token,同时完整保留校准样本。我们的方法在五个多样化基准测试中均达到了最新最优性能。尤为突出的是,在SmolLM2-1.7B模型上,Q-Tuning仅使用12.5%的原始训练数据,就比全数据SFT基线平均提升了38%。作为首个持续超越全数据训练效果的动态剪枝方法,Q-Tuning为预算受限的LLM监督微调提供了高效且可扩展的解决方案。
StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
StableToken:面向鲁棒语音大语言模型的抗噪声语义语音分词器
现有主流语义语音分词器虽然旨在捕捉语言内容,但其抗干扰能力出人意料地薄弱。我们发现这类分词器对语义无关的声学扰动非常敏感:即使在信噪比(SNR)较高、语音可懂度完好的情况下,其输出分词序列仍可能发生剧烈变化,从而显著增加下游大语言模型的学习难度。这种不稳定性源于两个固有缺陷:脆弱的单路径量化架构,以及未能考虑中间分词稳定性的间接训练信号。为此,我们提出StableToken分词器,通过共识驱动机制实现稳定表征。该架构采用多分支并行处理音频输入,并通过高效的按位投票机制融合各分支表征,最终生成统一稳定的分词序列。StableToken在分词稳定性方面达到新的最优水平,在多类噪声环境下将单元编辑距离(UED)显著降低。这种底层稳定性直接转化为下游性能提升,大幅增强了语音大语言模型在各类任务中的鲁棒性。
ReviewScore: Misinformed Peer Review Detection with Large Language Models
ReviewScore:基于大语言模型的错误信息同行评审检测
同行评审是学术研究的基石,但在大多数AI会议中,随着投稿量激增,评审质量正逐步下滑。为可靠识别低质量评审,我们将错误信息评审点定义为两类:包含错误前提的评审"弱点",以及论文内容已明确解答的评审"问题"。经验证,15.2%的弱点与26.4%的问题属于错误信息,据此我们提出ReviewScore指标来标识评审点的错误信息属性。为评估每个弱点前提的事实准确性,我们开发了自动重构引擎,可提取弱点中的所有显性与隐性前提。通过构建专家人工标注的ReviewScore数据集,我们测试了大语言模型自动化评估ReviewScore的能力。采用八款前沿大语言模型进行人机一致性评估,结果显示达到中等一致性水平。研究还证实,基于前提级别的事实性评估比弱点级别评估具有显著更高的一致性。深入的歧异分析进一步揭示了实现全自动ReviewScore评估的技术可行性。
Multiplayer Nash Preference Optimization
基于人类反馈的强化学习 (RLHF) 已成为将大语言模型 (LLMs) 与人类偏好对齐的标准范式。然而,基于 Bradley-Terry 假设的奖励方法难以捕捉现实世界偏好的非传递性和异质性。为此,近期研究将对齐问题重新表述为双人纳什博弈,由此催生了基于人类反馈的纳什学习 (NLHF)。尽管这一视角催生了具有坚实理论与实证保证的 INPO、ONPO 和 EGPO 等算法,但它们本质上仍受限于双人交互框架,存在单一对手偏差,无法完整反映现实偏好结构的复杂性。本研究提出多人纳什偏好优化 (MNPO),这一创新框架将 NLHF 推广至多人博弈范式。该框架将对齐问题建模为 <math xmlns="http://www.w3.org/1998/Math/MathML"> n n </math>n 人博弈,其中每个策略需与对手群体竞争,同时向参考模型进行正则化。我们的框架在多人设定中建立了明确定义的纳什均衡,并扩展对偶间隙概念用以量化近似质量。理论证明表明,MNPO 在继承双人方法均衡保证的同时,能实现更丰富的竞争动力学特性,并对多样化偏好结构实现更全面的覆盖。通过系统实证评估,我们发现 MNPO 在指令遵循基准测试中持续超越现有 NLHF 基线,在异质标注者设置与混合策略评估场景下均展现出更优的对齐质量。这些成果共同确立了 MNPO 作为原则性、可扩展的框架,能够有效实现大语言模型与复杂非传递性人类偏好的对齐。代码已发布于 github.com/smiles724/M...
ExGRPO: Learning to Reason from Experience
基于可验证奖励的强化学习 (RLVR) 是一种新兴范式,旨在提升大语言模型的推理能力。然而,标准的同策略训练在单次更新后即丢弃 rollout 经验,导致计算效率低下和训练不稳定。尽管先前强化学习研究强调了重用历史经验的优势,但经验特征对大型推理模型学习动态的影响仍未得到充分探索。本文首次系统研究了推理经验的价值构成,并确定 rollout 正确性和熵是经验价值的有效指标。基于这些发现,我们提出 ExGRPO(经验分组相对策略优化),该框架通过组织并对高价值经验进行优先级排序,并采用混合策略目标来平衡探索与经验利用。在五个骨干模型(参数量 1.5B-8B)上的实验表明,ExGRPO 在数学/通用基准上持续提升推理性能,相较同策略 RLVR 平均增益达 +3.5/7.6 分。此外,ExGRPO 在同策略方法失效的性能更强和更弱模型上均能保持训练稳定性。这些结果证明,系统化的经验管理是实现高效可扩展 RLVR 的关键要素。
VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators
VLA-RFT:基于世界模拟器与已验证奖励的视觉-语言-动作强化微调
视觉-语言-动作 (VLA) 模型支持具身决策,但严重依赖模仿学习,导致误差累积以及在分布偏移下鲁棒性不足。强化学习 (RL) 能够缓解这些问题,然而通常需要高成本的现实世界交互或面临模拟到现实的差异。我们提出了 VLA-RFT,一种强化微调框架,它利用数据驱动的世界模型作为可控模拟器。该模拟器基于真实交互数据训练,能够根据动作预测未来的视觉观察,从而在策略推演中生成源自目标达成参考的密集轨迹级奖励。这一设计提供了高效且与动作对齐的学习信号,显著降低了样本需求。在不到 400 次微调步骤的情况下,VLA-RFT 超越了强监督基线,并实现了比基于模拟器的强化学习更高的效率。此外,该方法在扰动条件下展现出强大的鲁棒性,保持任务执行的稳定性。我们的研究结果证实,基于世界模型的 RFT 是一种实用的后训练范式,可有效提升 VLA 模型的泛化能力和鲁棒性。更多详情请访问 vla-rft.github.io/。
StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions
StealthAttack:基于密度引导幻觉的鲁棒3D高斯泼溅投毒攻击
神经辐射场 (NeRF) 和3D高斯泼溅 (3DGS) 等3D场景表示方法极大推动了新视角合成的发展。随着这些方法的广泛应用,应对其安全脆弱性至关重要。本文分析了3DGS对抗图像级投毒攻击的鲁棒性,提出一种新颖的密度引导投毒方法。该方法通过核密度估计 (KDE) 定位低密度区域,策略性地注入高斯点,嵌入视角相关的幻觉对象:在投毒视角下清晰可见,而对正常视角影响极小。此外,我们引入自适应噪声策略破坏多视角一致性,进一步提升攻击效果。提出基于KDE的评估协议系统量化攻击难度,为后续研究建立客观基准。大量实验表明,本方法性能显著优于现有最优技术。项目页面:hentci.github.io/stealthatta...
More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models
推理能力已成为大语言模型 (LLMs) 的核心竞争力。通过强化学习 (RL) ,特别是群体相对策略优化 (GRPO) ,这些模型能够解决数学运算与代码生成等复杂任务。在此基础之上,最新研究尝试将推理能力扩展至视觉语言模型 (VLMs) ,并在多种视觉任务中取得了显著成果。然而,本研究发现多模态推理具有双重特性:虽然它能有效增强逻辑推断能力,助力解决复杂问题,但可能逐渐削弱模型的感知基础性,导致原本简单的视觉问答任务出现识别失误。通过深入分析,我们将此现象归因于视觉遗忘机制------持续推理过程会使模型逐渐忽略视觉输入。为此,我们提出视觉锚定策略优化 (VAPO) ,这种简洁高效的方法能显式地将推理过程引导至视觉锚定轨迹。最终模型 VAPO-Thinker-7B 显著强化了对视觉信息的依赖,在多个权威基准测试中创下性能新纪录。项目页面:xytian1008.github.io/VAPO/
SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights
SINQ:面向免校准低精度大语言模型权重的Sinkhorn归一化量化
训练后量化已成为低精度部署大语言模型最主流的方案。然而现有方法在比特宽度≤4时会出现困惑度劣化,部分原因在于异常值表征会引发与其共享缩放因子的参数出现精度问题。这一问题在免校准的均匀量化方法中尤为突出。我们提出SINQ方法,通过引入第二轴缩放因子和基于Sinkhorn-Knopp思想的快速算法来增强现有训练后量化器,该算法通过寻找最优缩放因子来归一化行列方差,从而最小化我们提出的新型矩阵级量化代理目标------矩阵失衡度。本方法具备层间独立性,可无缝适配新架构中的任意线性层量化。我们在Qwen3系列模型和DeepSeek-V2.5上的实验表明:相较于未校准均匀量化基线,SINQ显著提升了WikiText2和C4数据集的困惑度指标,且结合校准策略与非均匀量化层级后可获得进一步优化。项目代码已开源:github.com/huawei-csl/...
OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
OpenGPT-4o-Image:面向高级图像生成与编辑的综合数据集
统一多模态模型在图像生成与编辑任务中的性能,从根本上受限于训练数据的质量与覆盖范围。现有数据集虽已涵盖风格迁移、简单对象操作等基础任务,但普遍缺乏系统性组织及现实应用所需的复杂场景。为突破这一瓶颈,我们提出OpenGPT-4o-Image------一个基于分层任务分类法与自动化数据生成技术构建的大规模数据集。该分类体系不仅包含文本渲染、风格控制等基础能力,还拓展至化学插图科学影像、需同步执行多操作的复杂指令编辑等高实用性与高难度范畴。通过采用结构化资源池与GPT-4o驱动的自动化流程,我们生成8万对具有可控多样性的高质量指令-图像样本,覆盖11个主领域与51项子任务。大量实验表明,基于本数据集对主流模型进行微调后,在多项基准测试中均取得显著性能提升:编辑任务(UniWorld-V1模型在ImgEdit-Bench基准)最高提升18%,生成任务(Harmon模型在GenEval基准)提升13%。本研究证实,系统性数据构建是提升多模态人工智能能力的关键路径。
TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning
尽管大语言模型 (LLMs) 在事实问答任务上表现优异,但它们仍容易产生幻觉和虚假回答,尤其是在任务需求超出其参数知识范围时。事实上,真实性不仅要求准确性------模型还必须识别不确定性,并在不确定时拒绝回答以避免幻觉。这对现有方法构成了根本挑战:优化准确性的方法往往会加剧幻觉,而鼓励拒绝回答的方法可能过于保守,牺牲正确回答。两种极端最终都会影响真实性。本文提出 TruthRL,一个通用的强化学习 (RL) 框架,直接优化大语言模型的真实性。具体地,我们使用 GRPO 构建 TruthRL,并采用简单有效的三元奖励 (ternary reward) 来区分正确回答、幻觉和拒绝回答。该机制激励模型通过提供正确回答以及在不确信时允许拒绝回答来减少幻觉,从而提升真实性。在四个知识密集型基准测试上的广泛实验表明,与标准强化学习相比,TruthRL 显著减少幻觉 28.9%,并提高真实性 21.1%,在各种骨干模型 (如 Qwen、Llama) 的检索和非检索设置下均取得一致提升。深入消融研究表明,标准准确性驱动的方法 (如监督微调或使用二元奖励的强化学习) 难以平衡事实准确性和不确定性。相比之下,我们提出的基于真实性的 TruthRL 在准确性和真实性上均实现强劲性能,突显了学习目标设计对开发真实大语言模型的重要性。
Beyond the Exploration-Exploitation Trade-off: A Hidden State Approach for LLM Reasoning in RLVR
超越探索-利用权衡:一种用于 RLVR 中 LLM 推理的隐状态方法
在可验证奖励强化学习 (RLVR) 领域,主流观点通常从探索-利用权衡的角度解释近期进展,这一视角主要基于 Token 级指标形成。我们重新审视该观点,提出这种感知到的权衡可能并非根本性限制,而是测量层级偏差所致。为探究此问题,我们将分析转向语义丰富的隐状态空间,采用有效秩 (ER) 量化探索行为,并引入其新颖的一阶与二阶导数------分别命名为有效秩速度 (ERV) 和有效秩加速度 (ERA)------以刻画利用动态。分析结果表明,在隐状态层面,探索与利用可以实现解耦(第 4 节)。这一发现揭示了同步提升两种能力的潜力。基于该洞见,我们提出速度利用秩学习 (VERL) 方法,首次通过直接塑造强化学习优势函数来实现探索-利用协同增强机制。其核心创新在于利用理论稳定的 ERA 作为预测性元控制器,构建协同双通道激励架构。VERL 不强制进行权衡取舍,而是前瞻性地强化探索奖励以避免模型过度自信,同时增强利用收益以巩固推理过程。在多样化大语言模型与推理基准上的实验均显示稳定提升,其中在极具挑战性的高考 2024 数据集上实现了最高 21.4% 的绝对准确率提升。