Scaling RL to Long Videos
我们提出一个端到端框架,通过强化学习将视觉语言模型(VLMs)的推理能力扩展至长视频领域。针对长视频推理的独特挑战,我们整合了三个关键组件:(1) 大规模数据集LongVideo-Reason,包含52K个长视频问答对,涵盖体育、游戏和视频博客等多个领域的高质量推理标注;(2) 两阶段训练流程,通过思维链监督微调(CoT-SFT)和强化学习(RL)扩展VLMs能力;(3) 专为长视频RL设计的训练基础设施Multi-modal Reinforcement Sequence Parallelism (MR-SP),结合序列并行技术和基于vLLM的定制引擎,利用缓存视频嵌入实现高效rollout和prefilling。实验中,LongVILA-R1-7B在VideoMME等长视频QA基准表现优异,并在我们开发的LongVideo-Reason-eval基准上,在时序推理、目标、意图推理、空间推理和情节推理方面超越Video-R1-7B,甚至媲美Gemini-1.5-Pro。值得注意的是,我们的MR-SP系统在长视频RL训练中实现了最高2.1倍的训练加速。随着输入视频帧数增加,LongVILA-R1展现出持续的性能提升。LongVILA-R1标志着VLMs在长视频推理领域迈出坚实一步。此外,我们公开了训练系统,支持多种模态(视频、文本、音频)、多种模型(VILA和Qwen系列)乃至图像/视频生成模型的RL训练。在单台A100节点(8块GPU)上,可支持时长达1小时的视频RL训练(例如3,600帧/约256k tokens)。
MemOS: A Memory OS for AI System
大语言模型 (LLM) 已成为通用人工智能 (AGI) 的核心基础设施,但其缺乏明确定义的内存管理系统,阻碍了长上下文推理、持续个性化和知识一致性的发展。现有模型主要依赖静态参数和短暂的上下文状态,难以长期追踪用户偏好或更新知识。虽然检索增强生成 (RAG) 通过纯文本引入外部知识,但这仍是无状态的临时解决方案,既缺乏生命周期控制,也无法与持久化表示集成。
近期研究从内存层次结构角度建模了 LLM 的训练和推理成本,表明在参数内存与外部检索之间引入显式内存层,能够通过外部化特定知识显著降低计算开销。除效率问题外,LLM 还面临信息跨时空分布带来的系统性挑战,需要能够管理多时间尺度、多来源异构知识的系统架构。
为此,我们提出 MemOS------一种将内存作为可管理系统资源的操作系统。该系统统一管理纯文本、基于激活和参数级内存的表示形式、调度机制及演化过程,实现高效经济的存储与检索。其基本单元 MemCube 封装了内存内容以及来源、版本控制等元数据,支持组合、迁移和融合操作,既能灵活转换不同内存类型,又能桥接检索与参数化学习。MemOS 构建了以内存为中心的系统框架,为 LLM 提供可控性、可塑性和可进化能力,为持续学习与个性化建模奠定基础。
T-LoRA: Single Image Diffusion Model Customization Without Overfitting
扩散模型微调虽然能有效定制预训练模型以生成特定对象,但在训练样本有限时往往会出现过拟合问题,影响模型的泛化能力和输出多样性。本文研究了一个极具挑战性但意义重大的任务:仅使用单张概念图像适配扩散模型,这种单图像定制方式具有最高的实际应用价值。我们提出了T-LoRA,这是一种专为扩散模型个性化设计的时间步依赖低秩适配框架。研究发现,较高时间步的扩散过程比较低时间步更容易发生过拟合,因此需要采用时间步敏感的微调策略。T-LoRA包含两项关键创新:(1) 基于扩散时间步动态调整秩约束更新的微调策略;(2) 通过正交初始化确保适配器组件独立性的权重参数化技术。实验结果表明,T-LoRA及其各组件性能优于标准LoRA和其他扩散模型个性化方法,在概念保真度和文本对齐之间实现了更好的平衡,充分展现了T-LoRA在数据有限和资源受限场景中的应用潜力。代码已发布于github.com/ControlGenA...
SingLoRA: Low Rank Adaptation Using a Single Matrix
低秩自适应 (Low-Rank Adaptation, LoRA) 极大地提升了大型预训练模型的参数高效微调能力。该方法通过在模型预训练权重基础上引入两个小矩阵的乘积(构成低秩矩阵更新)来实现参数调整。近期研究表明,这两个矩阵间的尺度差异常引发训练动态特性不稳定,导致性能欠佳。本文提出 SingLoRA,该方法将权重更新重构为单一低秩矩阵与其转置矩阵的分解形式。这种简洁的设计从根本上消除了矩阵间尺度冲突,确保优化过程稳定,同时将参数量减少约50%。我们在无限宽度神经网络框架下对 SingLoRA 进行分析,证明其结构设计能够保证稳定的特征学习能力。多项任务的广泛实验结果验证了这些优势:在常识推理任务中,使用 SingLoRA 对 LLama 7B 进行 MNLI 微调获得了 91.3% 的准确率(优于 LoRA 的 89.1% 和 LoRA+ 的 90.2%),且仅需后者 60% 的参数开销;在图像生成任务中,采用 SingLoRA 微调 Stable Diffusion 显著提升了 DreamBooth 数据集上的图像保真性,其 DINO 相似度得分达到 0.151,优于 DoRA (0.148) 和 LoRA (0.143) 的表现。
Should We Still Pretrain Encoders with Masked Language Modeling?
高质量的文本表示学习是广泛NLP任务的基础。虽然编码器预训练传统上依赖于掩码语言建模(Masked Language Modeling, MLM),但最新研究表明,通过因果语言建模(Causal Language Modeling, CLM)预训练的解码器模型可有效转换为编码器,在文本表示基准测试中通常优于传统编码器。然而,目前尚不明确这些性能提升是源于CLM目标的固有优势,还是由模型规模和数据量等混杂因素导致。本文通过一系列大规模严格控制的预训练消融实验(共计训练38个参数量从2.1亿到10亿不等的模型,执行超过15,000次微调与评估)对该问题进行了探究。研究发现:虽然MLM训练在文本表示任务中普遍表现更优,但CLM训练模型具有更高的数据效率,且展现出更好的微调稳定性。基于上述发现,我们通过实验证明:在固定计算训练预算下,采用先CLM后MLM的两阶段训练策略可获得最优性能。此外,当使用现成的预训练CLM模型进行初始化时,该策略优势更为显著,可大幅降低训练顶尖编码器模型所需的计算成本。本项目的所有研究成果已在hf.co/MLMvsCLM公开,...
4KAgent: Agentic Any Image to 4K Super-Resolution
我们提出4KAgent,这是一个统一的智能体化超分辨率通用系统,能够将任意图像通用提升至4K分辨率(通过迭代应用甚至可实现更高分辨率)。该系统可将极端低分辨率且严重退化的图像(例如256x256的高失真输入)转化为具有照片级真实感的清晰4K输出。4KAgent由三个核心组件构成:(1) 分析模块,基于定制化用例配置系统流程;(2) 感知智能体,通过视觉语言模型与图像质量评估专家协同分析输入图像,制定针对性恢复方案;(3) 恢复智能体,采用递归执行与反思的范式执行恢复方案,通过质量导向的专家混合策略为每个处理步骤选择最优输出。此外,系统还集成专用的人脸恢复流程,可显著增强肖像与自拍照片的面部细节。我们在11个任务类别(涵盖26个多样化基准测试)上进行了严格评估,在包括自然图像、肖像照片、AI生成内容、卫星影像、荧光显微图像以及眼底摄影、超声和X射线等医学影像的广泛领域均实现了最先进性能,在感知指标(如NIQE、MUSIQ)和保真度指标(如PSNR)上均表现卓越。通过为底层视觉任务建立新型智能体化范式,我们期望推动视觉中心型自主智能体在各研究领域引发更广泛的研究兴趣与技术创新。所有代码、模型及结果将发布于:4kagent.github.io。
A Survey on Latent Reasoning
大语言模型 (LLMs) 已展现出卓越的推理能力,尤其是在显式思维链 (CoT) 推理的引导下,该推理能够将中间步骤显式表达为自然语言。尽管 CoT 提升了模型的可解释性与准确性,但其对自然语言推理的依赖限制了模型的表达能力。潜在推理通过完全在模型的连续隐状态空间中进行多步推理,消除了 Token 级别的监督,从而突破了这一瓶颈。为推动潜在推理领域的研究发展,本文对这一新兴领域进行了系统性综述。首先,我们剖析了神经网络层作为推理计算基元的基础作用,重点阐释了层次化表征如何支撑复杂的特征变换。随后,我们探讨了多种潜在推理方法,包括基于激活的循环机制、隐状态传播技术,以及用于压缩或吸收显式推理轨迹的微调策略。最后,我们深入分析了诸如基于掩码扩散模型的无限深度潜在推理等先进范式,这些方法能够实现全局一致且可逆的推理过程。通过整合这些研究视角,本文旨在厘清潜在推理的概念体系,并为大语言模型认知前沿的研究指明未来方向。相关 GitHub 仓库汇集了该领域的最新论文与代码库,访问地址如下:
github.com/multimodal-...
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
随着语言智能体处理的任务日益复杂,其在跨领域有效纠错和经验复用方面面临显著挑战。我们提出Agent KB这一分层经验框架,通过创新的"推理-检索-优化"(Reason-Retrieve-Refine)流程实现复杂智能体化问题解决。Agent KB突破了传统智能体无法相互学习经验的核心限制,通过同时捕获高层策略和详细执行日志,构建了支持跨智能体知识迁移的共享知识库。在GAIA基准测试中,Agent KB将成功率最高提升16.28%。在最困难任务上,Claude-3的性能从38.46%提升至57.69%,而GPT-4在中等难度任务上从53.49%提升至73.26%。在SWE-bench代码修复任务中,Agent KB使Claude-3的修复率从41.33%提升至53.33%。研究结果表明,Agent KB提供了模块化、与框架无关的基础架构,使智能体能够从历史经验中学习,并将成功策略推广到新任务。
Skywork-R1V3 Technical Report
本文介绍 Skywork-R1V3,一种先进的开源视觉语言模型 (VLM),其创新性地提出了一种视觉推理新范式。该模型的核心突破在于成功实现了纯文本大语言模型 (LLMs) 推理能力向视觉任务的有效迁移。Skywork-R1V3 的卓越性能主要得益于我们设计的后训练强化学习 (RL) 框架,该框架在不依赖额外持续预训练的情况下,即可有效激活并增强模型的推理能力。通过该框架,我们首次揭示了连接器模块对于实现多模态推理模型跨模态稳健对齐的基础作用。此外,我们提出了一种创新的推理能力评估指标------关键推理 Token 熵,该指标在 RL 训练阶段的检查点选择中展现出显著效果。Skywork-R1V3 在 MMMU 基准测试中取得了 76.0% 的准确率(较原 64.3% 显著提升),达到人类初级认知水平。值得注意的是,基于 RL 的后训练方法使得仅 38B 参数的模型即可与顶级闭源 VLM 相媲美。该方法成功实现了数学推理能力向其他学科推理任务的迁移。本文还系统分析了课程学习与强化微调策略,并深入探讨了多模态推理技术。Skywork-R1V3 的突破性进展标志着多模态推理领域的重大进步,证明了 RL 作为提升开源 VLM 能力的高效引擎。
MIRIX: Multi-Agent Memory System for LLM-Based Agents
尽管AI智能体的记忆能力日益受到关注,现有解决方案仍存在本质性局限。多数系统采用平面化、窄域的记忆组件,制约了其个性化、抽象化以及长期可靠存取用户特定信息的能力。为此,我们提出MIRIX------一个模块化多智能体记忆系统,通过解决该领域核心挑战(实现语言模型的真实记忆能力),重新定义了AI记忆的范式。相较于现有方法,MIRIX突破文本限制,整合丰富的视觉与多模态体验,使记忆在真实场景中具备实用价值。MIRIX包含六种结构化的独立记忆类型:核心记忆(Core)、情景记忆(Episodic)、语义记忆(Semantic)、程序性记忆(Procedural)、资源记忆(Resource Memory)和知识库(Knowledge Vault),并采用多智能体框架动态协调更新与检索机制。该架构支持智能体持久化存储、推理及精准检索大规模多样化长期用户数据。我们在两个严苛测试场景中验证了MIRIX:首先,在ScreenshotVQA基准测试(该多模态基准包含每序列近20,000张高分辨率屏幕截图,需要深层上下文理解且现有记忆系统均无法直接应用)上,MIRIX相比RAG基线准确率提升35%,同时降低99.9%存储开销;其次,在LOCOMO长程对话基准(单模态文本输入)上,MIRIX以85.4%的性能达到state-of-the-art水平,显著超越现有基线。实验结果表明MIRIX为记忆增强型大语言模型智能体确立了新的性能基准。我们提供了基于MIRIX的封装应用实现,支持实时屏幕监控、个性化记忆库构建,并提供可视化功能与本地安全存储以确保隐私。
OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion
构建具备明确可编辑部件结构的三维模型对交互应用发展至关重要,但现有生成方法大多仅输出整体形状,实用性受限。本文提出OmniPart这一新型部件感知三维生成框架,在实现组件间高度语义解耦的同时确保结构完整性。该框架创新性地将任务分解为两个协同阶段:(1) 自回归结构规划模块生成可控可变长度的三维部件包围盒序列,通过灵活的二维部件掩码实现直观的部件分解控制,无需语义标签或对应关系;(2) 基于空间条件的修正流模型从预训练整体生成器高效迁移,在规划布局中同步生成所有三维部件并保持结构一致性。本方法支持用户自定义部件粒度与精确定位,可扩展至多样化下游任务。实验结果表明,OmniPart达到了当前最优性能,为可解释、可编辑、多功能的三维内容生成开辟了新途径。
Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data
根据文本描述生成多样且自然的人体运动序列,是计算机视觉、图形学与机器人学领域的基础性挑战课题。虽然该领域已取得显著进展,但现有方法在零样本泛化能力方面仍存在局限,这主要是由于训练数据集规模不足所致。同时,全面评估框架的缺失也阻碍了该任务的进一步发展,使得改进方向难以明确。本研究致力于推动文本到运动生成进入新阶段------实现真正的零样本泛化能力。具体而言,我们首先开发了高效标注流程,并发布当前最大的人体运动数据集MotionMillion,包含超过2,000小时时长的200万条高质量运动序列。此外,我们构建了最全面的零样本运动生成评估基准MotionMillion-Eval。基于可扩展架构,我们将模型参数量提升至70亿,并在MotionMillion-Eval上验证其性能。实验结果显示,该模型对域外数据及复杂组合运动均表现出优异的泛化能力,为零样本人体运动生成研究迈出了重要一步。代码已开源:github.com/VankouF/Mot...