A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
测试时扩展旨在通过增加计算资源来提升大语言模型 (LLM) 的推理性能。该领域的流行方法包括基于采样的测试时扩展方法,其核心机制是在推理阶段为单一输入生成多条推理路径以增强性能。然而,尽管这些方法在实践中取得成功,其理论基础仍缺乏深入研究。本文首次从置信度估计的视角,建立了用于分析基于采样的测试时扩展方法的理论框架。基于此框架,我们剖析了两种主流范式------自一致性与困惑度,并揭示其关键局限:自一致性存在高估计误差,而困惑度不仅呈现显著建模误差,还可能导致估计误差收敛性退化。为克服这些局限,我们提出 RPC 混合方法,其通过两个关键组件体现理论洞见:困惑度一致性与推理剪枝。困惑度一致性融合了自一致性与困惑度的优势,在保持模型误差不变的同时,将估计误差的收敛速率从线性加速至指数级;推理剪枝则通过剔除低概率推理路径避免性能退化。在七个基准数据集上的理论分析与实证结果表明,RPC 具备显著降低推理误差的潜力。值得注意的是,RPC 在达到与自一致性相近推理性能的同时,不仅提升了置信度可靠性,还将采样成本降低了 50%。代码与资源公开于 wnjxyk.github.io/RPC。
Efficient Long-context Language Model Training by Core Attention Disaggregation
我们提出核心注意力解耦 (CAD) 技术,通过将核心注意力计算 softmax(QK^T)V 从模型其余部分分离,并在专用设备池上执行,以提升长上下文大语言模型的训练效率。在现有系统中,核心注意力与其他组件共置;当上下文长度增加时,其计算量呈二次增长,而其他组件仅呈近线性增长,导致数据并行和流水线并行组中出现负载不均及慢节点问题。CAD 的实现基于两个关键观察:首先,核心注意力是无状态的,不含可训练参数且仅需极少量瞬态数据,因此负载均衡问题可简化为调度计算密集型任务;其次,它具有可组合性,现代注意力内核在处理任意长度的融合 token 级分片批次时仍能保持高效率。CAD 将核心注意力分解为 token 级任务,并分发至专用注意力服务器,这些服务器动态重组任务批次以实现计算均衡,同时不损失内核效率。我们在名为 DistCA 的系统中实现了 CAD,该系统采用乒乓式执行方案,完全重叠通信与计算过程,并通过注意力服务器上的原地执行来降低内存占用。在 512 个 H200 GPU 和 512k token 的上下文长度下,DistCA 将端到端训练吞吐量最高提升 1.35 倍,消除了数据并行和流水线并行中的慢节点,并实现了近乎完美的计算与内存平衡。
LightMem: Lightweight and Efficient Memory-Augmented Generation
尽管大语言模型 (LLMs) 能力卓越,但在动态复杂环境中难以有效利用历史交互信息。记忆系统通过引入持久性信息存储、检索和利用机制,使 LLMs 能够超越无状态交互。然而,现有记忆系统通常带来显著的时间和计算开销。为此,我们提出了名为 LightMem 的新型记忆系统,在系统性能与效率之间实现了平衡。受人类记忆的 Atkinson-Shiffrin 模型启发,LightMem 将记忆组织为三个互补阶段:首先,受认知启发的感官记忆通过轻量级压缩快速过滤不相关信息,并按主题对信息进行分组;其次,主题感知短期记忆对这些按主题分组的单元进行巩固,通过组织与内容摘要实现更结构化的访问;最后,采用睡眠时间更新的长期记忆通过离线处理方式,将巩固过程与在线推理解耦。在 LongMemEval 基准测试中,基于 GPT 和 Qwen 骨干网络的实验表明,LightMem 在准确率上超越强基线(最高提升 10.9%),同时将 token 使用量降低达 117 倍,API 调用次数减少达 159 倍,运行时间缩短超过 12 倍。代码发布于 github.com/zjunlp/Ligh...
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning
本技术报告提出Ring-linear模型系列,具体包含Ring-mini-linear-2.0与Ring-flash-linear-2.0两个版本。其中Ring-mini-linear-2.0具有160亿参数和9.57亿激活量,Ring-flash-linear-2.0则具备1040亿参数和61亿激活量。该系列采用融合线性注意力与softmax注意力的混合架构,显著降低了长上下文推理场景中的I/O与计算开销。相较于320亿参数的稠密模型,本系列将推理成本降至1/10;与原始Ring系列相比,成本降幅亦超过50%。通过对混合架构中不同注意力机制配比的系统探索,我们确立了当前最优的模型结构。基于自研的高性能FP8算子库linghe,整体训练效率提升达50%。凭借训练与推理引擎算子间的高度协同,模型在强化学习阶段可实现长期稳定且高效的优化,在多项复杂推理基准测试中持续保持顶尖(SOTA)性能。
DeepAnalyze: Agentic Large Language Models for Autonomous Data Science
自主数据科学,即从原始数据源生成专业分析师水平的深度研究报告,长期以来一直是一个挑战。随着强大大型语言模型(LLMs)的出现,这一目标正逐渐成为可能。近期基于工作流的数据代理在特定数据任务上展现出潜力,但由于依赖预定义工作流,在实现完全自主数据科学方面仍存在根本性局限。本文介绍DeepAnalyze-8B,这是首个专为自主数据科学设计的智能体大语言模型,能够自动执行从数据源到分析师标准深度研究报告的端到端流程。为应对高复杂度数据科学任务,我们提出一种基于课程学习的智能体训练范式,模拟人类数据科学家的学习路径,使LLM能够在真实环境中逐步获取并整合多种能力。同时,我们引入一个数据驱动的行为序列合成框架,用于构建高质量训练数据。通过智能体训练,DeepAnalyze学会执行广泛的数据任务,包括数据问答、专业分析任务以及开放式数据探索。实验表明,仅凭80亿参数,DeepAnalyze的性能已超越此前基于最先进闭源LLMs构建的工作流代理。DeepAnalyze的模型、代码及训练数据均已开源,为推进自主数据科学奠定了基础。
World-in-World: World Models in a Closed-Loop World
生成式世界模型 (WMs) 现已能够以惊人的视觉真实度模拟世界,这自然引发了一个疑问:它们能否为具身智能体提供预测性感知能力以支持决策?该领域的发展受限于评估方法的碎片化:现有基准大多采用开环协议,孤立地强调视觉质量,却未解决具身实用性的核心问题------世界模型是否真能帮助智能体成功完成具身任务?为填补这一空白,我们推出了 World-in-World,这是首个在闭环世界中基准测试世界模型的开放平台,其模拟了真实的智能体-环境交互。World-in-World 提供统一的在线规划策略和标准化动作 API,使异构世界模型能够用于决策。我们构建了四个闭环环境,严格评估多种世界模型,以任务成功率作为核心指标,并突破了对视觉质量的常规关注;同时,我们首次提出了具身场景下世界模型的数据缩放定律。研究揭示了三个意外发现:(1) 仅靠视觉质量无法确保任务成功,可控性更为关键;(2) 利用动作-观察数据进行后训练缩放,比升级预训练视频生成器更有效;(3) 增加推理时计算资源可显著提升世界模型的闭环性能。
BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via
BAPO:通过自适应裁剪的平衡策略优化稳定大语言模型的离策略强化学习
强化学习 (RL) 已成为对齐和增强大语言模型 (LLMs) 的核心方法。然而,在离策略设置中应用 RL(即使用历史策略生成的陈旧数据进行训练)虽能提高样本效率,但仍面临挑战:策略熵值急剧下降,优化过程常不稳定,甚至可能导致训练崩溃。通过理论与实证分析,我们得出两个关键发现:(i) 优化过程存在不平衡问题,负优势样本主导策略梯度,抑制有效行为并引发梯度爆炸风险;(ii) 推导出的熵裁剪规则表明,PPO 类目标中的固定裁剪机制会系统性阻碍熵增更新,从而使策略过度偏向利用而牺牲探索。基于这些发现,我们提出自适应裁剪的平衡策略优化 (BAPO),这是一种简单有效的方法,通过动态调整裁剪边界,自适应平衡正负贡献、维持熵值并稳定 RL 优化。在多种离策略场景(包括样本回放和部分 rollout)中,BAPO 均能实现快速、稳定且数据高效的训练。在 AIME 2024 和 AIME 2025 基准测试中,我们的 7B BAPO 模型超越了开源模型如 SkyWork-OR1-7B,而 32B BAPO 模型不仅在同等规模模型中达到最优水平,还超越了领先的专有系统如 o3-mini 和 Gemini-2.5-Flash-Thinking。
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
OmniVinci:面向全模态理解的架构与数据增强方法 LLM
提升机器智能水平需要实现跨多模态的感知能力,模拟人类认知世界的方式。本文提出 OmniVinci 项目,致力于构建一个强大的开源全模态大语言模型。我们系统性地研究了模型架构与数据构建的关键设计要素。在模型架构方面,我们提出三项核心创新:(i) OmniAlignNet 模块,用于强化视觉与音频嵌入在共享全模态潜在空间中的对齐;(ii) 时序嵌入分组机制,用于建模视觉与音频信号间的相对时序对齐关系;(iii) 约束旋转时序嵌入方法,用于在全模态嵌入中编码绝对时序信息。我们构建了一套数据构建与合成流程,生成了 2400 万条单模态及全模态交互数据。研究发现,不同模态在感知与推理过程中存在协同增强效应。我们的 OmniVinci 模型在多项基准测试中表现优异:在 DailyOmni(跨模态理解)上较 Qwen2.5-Omni 提升 19.05 分,在 MMAR(音频)上提升 1.7 分,在 Video-MME(视觉)上提升 3.9 分,而训练数据量仅需 0.2T token,较 Qwen2.5-Omni 的 1.2T token 减少了 83%。最后,我们在机器人、医疗AI和智能工厂等下游应用中验证了全模态技术的优势。
UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation
UniGenBench++:文本到图像生成的统一语义评估基准
文本到图像 (T2I) 生成技术的最新进展表明,需要可靠的评估基准来衡量生成图像与文本提示语义的匹配精度。然而现有基准存在两大局限:(1) 缺乏多样化的提示场景和多语言支持,而这二者对实际应用至关重要;(2) 仅对主要维度进行粗粒度评估,覆盖的子维度范围有限,且缺乏细粒度评估能力。为此,我们提出UniGenBench++------一个统一的T2I生成语义评估基准。该基准包含600个分层组织的提示词,在保证评估覆盖率与效率的同时: (1) 涵盖5大主题和20个子主题的多样化现实场景;(2) 通过10个主评估维度和27个子维度全面检验T2I模型的语义一致性,每个提示词可同时评估多个测试维度。为严格测试模型对语言类型和提示长度的适应性,所有提示均提供简/繁两种长度的中英文版本。基于闭源多模态大语言模型Gemini-2.5-Pro的通用知识库与细粒度图像理解能力,我们构建了高效的基准构建流程与标准化评估方案。此外,还训练了鲁棒的评估模型,支持对T2I模型输出进行离线评估。通过对开源与闭源T2I模型的全面测试,系统揭示了各模型在不同维度上的性能差异。
Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1
在科学进步的追求中,研究成果的传播与科学发现本身同等重要。然而,研究人员常因手动构建项目网页(旨在使内容密集的论文更易理解)这一重复性任务而分心。尽管自动化技术已能处理静态幻灯片和海报,但网页的动态交互特性仍是亟待解决的挑战。为弥补这一差距,我们重新审视该问题,提出解决方案并非依赖单一指令,而应通过协作式分层流程实现。我们引入 <math xmlns="http://www.w3.org/1998/Math/MathML"> AutoPage \textbf{AutoPage} </math>AutoPage------一个体现此理念的新型多智能体系统。该系统将论文到网页的生成过程解构为从叙事规划到多模态内容生成,再到交互式渲染的由粗到精流程。为减少AI幻觉,专设"检查器"智能体逐步对照原文验证输出,同时可选的人工审核节点确保最终成果与作者意图高度一致,使系统从简单工具升级为强力协作助手。为严格验证方法,我们还构建了 <math xmlns="http://www.w3.org/1998/Math/MathML"> PageBench \textbf{PageBench} </math>PageBench------该新兴任务的首个基准测试集。实验表明,AutoPage不仅能生成高质量、视觉吸引力强的网页,更以低于0.1美元的成本在15分钟内高效完成。代码与数据集将于 <math xmlns="http://www.w3.org/1998/Math/MathML"> \href \href{https://mqleet.github.io/AutoPage_ProjectPage/}{项目网站} </math>\href发布。
PICABench: How Far Are We from Physically Realistic Image Editing?
图像编辑领域近期取得了显著进展。现代编辑模型已能执行复杂指令来操控原始内容。然而,除了实现编辑指令外,伴随产生的物理效应是生成真实感的关键因素。例如,移除物体时,应同时移除其阴影、反射以及与周围物体的交互效应。遗憾的是,现有模型和基准测试主要关注指令执行完成度,却忽略了这些物理效应。因此,目前我们距离实现物理真实的图像编辑还有多大差距?为回答这一问题,我们推出PICABench基准,系统评估了常见编辑操作(如添加、移除、属性修改等)在八个子维度(涵盖光学、力学和状态转换)上的物理真实感。我们进一步提出PICAEval评估协议,采用VLM-as-a-judge框架,结合逐案例的区域级人工标注与问题设计。除基准测试外,我们还通过从视频数据中学习物理规律探索有效解决方案,并构建了PICA-100K训练数据集。在对主流模型进行全面评估后,我们发现物理真实感仍是亟待解决的挑战性难题,存在广阔的研究空间。我们希望本基准及相关解决方案能为未来研究从基础内容编辑迈向物理一致性真实感提供重要基础。
Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model
我们正式发布 Ring-1T------首个开源的万亿参数级尖端思维模型。该模型包含1万亿总参数,每个Token激活约500亿参数。在万亿参数规模上训练此类模型面临三大挑战:训练与推理失配、轨迹生成效率低下,以及强化学习系统瓶颈。为此我们提出三项核心创新:(1) IcePop 通过Token级差异掩码与裁剪技术稳定强化学习训练,解决训练-推理失配导致的不稳定性;(2) C3PO++ 在给定Token预算条件下,通过动态分区长轨迹实现资源优化,显著提升时间效率;(3) ASystem 作为高性能强化学习框架,专门突破阻碍万亿参数模型训练的系统瓶颈。Ring-1T 在关键基准测试中表现卓越:AIME-2025获93.4分,HMMT-2025获86.72分,CodeForces评分2088,ARC-AGI-v1达55.94分。尤为突出的是,其在IMO-2025中达到银牌水平,充分彰显卓越推理能力。通过向社区开放完整的1T参数MoE模型,我们为学术界提供了直接接触前沿推理技术的通道。这一成果标志着大规模推理智能普惠化的重要里程碑,并为开源模型性能确立了全新基准。
Glyph: Scaling Context Windows via Visual-Text Compression
大语言模型 (LLMs) 日益依赖长上下文建模来处理文档理解、代码分析和多步推理等任务。然而,将上下文窗口扩展至百万 token 级别会带来高昂的计算和内存成本,限制了长上下文 LLMs 的实际应用。为此,我们提出一种新视角------视觉上下文扩展------以应对这一挑战。我们开发了 Glyph 框架,该框架将长文本渲染为图像,并利用视觉语言模型 (VLMs) 进行处理,而非扩展基于 token 的序列。这种方法在保留语义信息的同时,大幅压缩文本输入;我们还设计了基于 LLM 的遗传搜索,以识别最优视觉渲染配置,平衡准确性与压缩率。大量实验表明,本方法在多种长上下文基准测试(例如 Qwen3-8B)上实现了 3-4 倍的 token 压缩,同时保持与主流 LLMs 相当的准确性。压缩还使预填充和解码速度提升约 4 倍,SFT 训练加速约 2 倍。此外,通过极端压缩,128K 上下文的 VLM 可扩展至处理 1M token 级别的文本任务。渲染的文本数据还有助于现实世界多模态任务,如文档理解。我们的代码和模型已发布于 github.com/thu-coai/Gl...
NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks
3D物体编辑在游戏、动画及机器人技术的交互式内容创作中至关重要,但现有方法效率低、一致性差,且常无法保留未编辑区域。多数方法基于多视角渲染编辑后进行重建,易产生伪影并制约实际应用。为解决这些问题,我们提出Nano3D------一种无需训练即可实现无掩码精准连贯3D编辑的框架。Nano3D将FlowEdit集成至TRELLIS系统,通过前视图渲染引导局部编辑,并引入区域感知合并策略Voxel/Slat-Merge,该策略通过维护编辑区与未编辑区的一致性,自适应保障结构保真度。实验表明,Nano3D相较现有方法具有更优的3D一致性与视觉质量。基于此框架,我们构建了首个大规模3D编辑数据集Nano3D-Edit-100k,包含逾10万组高质量3D编辑样本。本工作攻克了算法设计与数据可获取性领域的长期难题,显著提升3D编辑的通用性与可靠性,为前馈式3D编辑模型发展奠定基础。项目页面:jamesyjl.github.io/Nano3D
LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts
长上下文推理对大语言模型至关重要。尽管强化学习 (RL) 通过思维链激发"顿悟"时刻来提升短上下文推理能力,但长上下文推理所需的高级思维模式仍鲜有研究,且高难度 RL 数据匮乏。本文提出 LoongRL,一种数据驱动的 RL 方法,用于实现高级长上下文推理。其核心是 KeyChain 合成方法:通过插入 UUID 链将短多跳问答转换为高难度长上下文任务,这些链将真实问题隐藏于海量干扰文档中。解决此类任务要求模型逐步追踪正确链、识别真实问题、检索相关事实并进行推理以给出正确答案。基于 KeyChain 数据的 RL 训练催生了一种新兴的"规划-检索-推理-复核"推理模式,其泛化能力远超训练长度。经 16K 长度训练的模型可有效解决 128K 任务,且无需支付高昂的全程 RL 展开成本。在 Qwen2.5-7B 与 14B 模型上,LoongRL 使长上下文多跳问答准确率显著提升,绝对增益分别达 +23.5% 和 +21.1%。最终 LoongRL-14B 获得 74.2 的评分,与规模更大的前沿模型(如 o3-mini (74.5) 和 DeepSeek-R1 (74.9))性能相当。该方法还提升了长上下文检索能力,通过全部 128K 长度"大海捞针"压力测试,并保持了短上下文推理性能。
AdaSPEC: Selective Knowledge Distillation for Efficient Speculative Decoders
推测解码 (Speculative Decoding, SD) 通过采用小型草稿模型生成预测,再由大型目标模型进行验证,从而加速大语言模型推理。SD 的有效性依赖于草稿模型与目标模型之间的对齐度,通常通过知识蒸馏 (Knowledge Distillation, KD) 来提升。然而,传统 KD 方法旨在最小化草稿模型与目标模型在所有 token 上的 KL 散度,这一目标与 SD 的真实目标------最大化 token 接受率------存在偏差。因此,受容量限制,草稿模型往往难以完全学习目标模型的知识,导致性能不理想。为解决这一问题,我们提出 AdaSPEC,一种在 KD 过程中引入选择性 token 过滤的新方法。AdaSPEC 利用参考模型识别并滤除难以拟合的 token,从而在更简单的 token 上蒸馏出与目标模型对齐度更高的草稿模型。该方法在不降低生成质量的前提下,提高了整体 token 接受率。我们在多种任务上评估 AdaSPEC,包括算术推理、指令跟随、代码生成和文本摘要,使用参数规模为 31M/1.4B 和 350M/2.7B 的模型配置。结果表明,AdaSPEC 在所有任务中均持续优于当前最先进的 DistillSpec 方法,接受率提升最高达 15%。代码公开于 github.com/yuezhouhu/a...
DeepSeek-OCR: Contexts Optical Compression
我们提出 DeepSeek-OCR,作为通过光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR 包含两个组件:DeepEncoder 和作为解码器的 DeepSeek3B-MoE-A570M。具体而言,DeepEncoder 作为核心引擎,旨在高分辨率输入下保持低激活值,同时实现高压缩比,以确保视觉 token 数量达到最优且可管理。实验表明,当文本 token 数量不超过视觉 token 数量的 10 倍(即压缩比 < 10 倍)时,模型可实现 97% 的解码(OCR)精度。即使在 20 倍压缩比下,OCR 准确率仍保持在约 60%。这表明在历史长上下文压缩和大语言模型记忆遗忘机制等研究领域具有巨大潜力。此外,DeepSeek-OCR 还展现出较高的实用价值:在 OmniDocBench 基准测试中,仅使用 100 个视觉 token 即超越 GOT-OCR2.0(每页 256 token),且在使用不足 800 个视觉 token 时优于 MinerU2.0(平均每页 6000+ token)。在实际应用中,DeepSeek-OCR 可基于单张 A100-40G 显卡,以每日 20 万+ 页的规模为大语言模型/视觉语言模型生成训练数据。代码和模型权重已开源,详见 github.com/deepseek-ai...
FineVision: Open Data Is All You Need
视觉语言模型 (VLMs) 的发展因公共数据集存在不一致性与污染问题而受阻。我们推出 FineVision------一个经过精心采集、整理与标准化处理的 2400 万样本语料库,这也是目前同类开放资源中规模最大的数据集。通过半自动化的人机协同流程,我们将 200 余个数据源整合为 185 个子集:自动化流程负责批量采集与模式映射,审核人员则对映射关系进行审计,并通过抽样检查确保标注信息的准确使用、格式规范与数据多样性,同时保障数据安全性;发现的问题将引发针对性修复并重新执行流程。该工作流还实施了严格的数据源内与跨源去重操作,并针对 66 个公开基准数据集进行了数据净化处理。FineVision 还包含具有统一动作空间的智能体/GUI 任务,审核人员会验证数据模式并抽检轨迹样本以确保可执行准确性。在全面评估测试中,基于 FineVision 训练的模型表现持续优于采用现有开放混合数据集训练的模型,这充分证明了数据规模、数据质量以及人机协同的平衡自动化带来的优势。我们公开释放该语料库及数据整理工具,以推动数据驱动的 VLM 研究发展。
Chem-R: Learning to Reason as a Chemist
尽管大语言模型 (LLMs) 在推动化学发现方面潜力巨大,但现有模型存在核心化学知识缺失、推理轨迹不可靠、以及在各类化学任务中性能欠佳等问题。为解决这些挑战,我们提出 Chem-R------一个具有强泛化能力的化学推理模型,其设计目标是模拟化学家的审慎推理过程。该模型通过三阶段训练框架逐步构建高级推理能力,具体包括:1) 化学基础训练,建立核心化学知识体系;2) 化学推理规程蒸馏,融入结构化专家级推理轨迹以指导系统可靠的问题求解;3) 多任务组相对策略优化,使模型在分子与反应任务中实现均衡性能。这一结构化流程使 Chem-R 在综合基准测试中达到最先进水平,在分子任务上超越包括 Gemini-2.5-Pro 和 DeepSeek-R1 在内的领先大语言模型,幅度高达 32%,在反应任务上领先幅度达 48%。同时,Chem-R 在分子与反应任务中持续领先现有化学基础模型。这些成果彰显了 Chem-R 强大的泛化能力、可解释性及其作为下一代 AI 驱动化学发现基石的潜力。代码与模型详见 github.com/davidweidaw...
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
基于指令的视频编辑技术有望降低内容创作门槛,但其发展受到大规模高质量训练数据稀缺的严重制约。我们提出Ditto------一个解决这一根本挑战的综合性框架。该框架核心采用创新的数据生成流程,将领先图像编辑器的创意多样性与情境感知视频生成器相融合,有效突破现有模型的局限性。为实现可行性,我们通过采用高效蒸馏模型架构并集成时序增强模块,在显著降低计算开销的同时提升时序一致性,从而突破传统方案中成本与质量难以兼顾的困境。最终,通过智能体自动生成多样化指令并严格筛选输出,实现全流程规模化质量控制。基于该框架,我们投入超过12,000 GPU天构建了Ditto-1M数据集,包含百万级高保真视频编辑样本。采用课程学习策略在Ditto-1M上训练得到的Editto模型,在指令遵循能力方面表现卓越,刷新了指令式视频编辑领域的性能纪录。
Language Models are Injective and Hence Invertible
Transformer 组件(例如非线性激活和归一化)本质上是非单射的,这意味着不同输入可能映射到相同输出,从而无法从模型表示中精确恢复输入。本文中,我们对此观点提出挑战。首先,从数学上证明,将离散输入序列映射到对应连续表示序列的 transformer 语言模型具有单射性,因此是无损的;该特性在初始化时确立并在训练过程中保持不变。其次,通过对六个前沿语言模型进行数十亿次碰撞测试,我们实证验证了这一结论,且未观察到任何碰撞。第三,我们实现了单射性的实际应用:提出 SipIt 算法,这是首个可证明且高效地从隐藏激活中重构原始输入文本的方法,具备线性时间保证,并在实践中实现了精确可逆。总体而言,本研究确立了单射性作为语言模型的基本可挖掘特性,直接影响模型透明度、可解释性及安全部署。