Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
思维链 (Chain-of-Thought, CoT) 提示技术已被证实能显著提升大语言模型 (Large Language Model, LLM) 在多类任务中的表现。采用该方法时,大语言模型会在输出答案前生成类人的推理步骤(称为 CoT 推理),这种现象常被解读为模型正在进行有意识的推理过程。然而,初步研究表明 CoT 推理可能仅停留在表面层面,这促使我们开展深入研究。本文从数据分布的角度出发,探究 CoT 推理是否本质上是模型从分布内数据中习得的结构化归纳偏置 (structured inductive bias),使其能够根据条件生成与训练数据相似的推理路径。因此,其有效性根本上受限于训练数据与测试查询之间的分布差异程度。基于此视角,我们从任务、长度和格式三个维度对 CoT 推理进行解构。为验证每个维度,我们设计了 DataAlchemy------一个隔离可控的实验环境,用于从头训练大语言模型并系统性地测试不同分布条件下的表现。实验结果表明,CoT 推理是一种脆弱的假象,一旦超出训练数据分布范围就会失效。本研究深入揭示了 CoT 推理失效的原因和条件,强调了实现真正具备泛化能力的推理仍面临重大挑战。
Qwen-Image Technical Report
本文提出 Qwen-Image,这是 Qwen 系列中的图像生成基础模型,在复杂文本渲染和精确图像编辑领域取得重大突破。针对复杂文本渲染的挑战,我们构建了完整的数据处理流程,涵盖大规模数据收集、过滤、标注、合成与均衡。采用渐进式训练策略:从非文本渲染起步,逐步过渡到简单文本输入,最终扩展至段落级描述。这种课程学习方法显著提升了模型的原生文本渲染能力,使 Qwen-Image 不仅在英语等字母语言中表现卓越,在中文等表意文字语言上也取得显著进展。
为提升图像编辑一致性,我们改进多任务训练范式:除传统文本到图像 (T2I) 和文本图像到图像 (TI2I) 任务外,新增图像到图像 (I2I) 重建任务,有效实现 Qwen2.5-VL 与 MMDiT 潜在表示的对齐。通过双路编码机制------将原始图像分别输入 Qwen2.5-VL 和 VAE 编码器,同步获取语义表示与重建表示,使编辑模块能兼顾语义一致性与视觉保真度。实验表明,Qwen-Image 在多项基准测试中达到业界领先水平,充分展现其在图像生成与编辑领域的强大能力。
VeriGUI: Verifiable Long-Chain GUI Dataset
近期研究致力于开发能够执行复杂图形用户界面 (GUI) 任务的自主智能体,这一技术有望革新人机交互领域。虽然已取得积极进展,但现有研究主要聚焦短期交互场景,且仅采用结果导向的验证方式,这限制了其在需要长周期任务分解与执行的实际 GUI 应用中的扩展性。本文提出 VeriGUI------一个创新的可验证长链 GUI 数据集,旨在支持真实计算机环境下通用 GUI 智能体的开发与评估。该数据集突出两个关键特性:(1) 长链复杂性:任务被分解为数百个相互关联的子任务步骤序列,其设计确保任意子任务均可作为有效起点;(2) 子任务级可验证性:支持每个子任务内的多样化探索策略,同时保证各子任务目标的可验证性与一致性。数据集包含桌面端和网页端的 GUI 任务轨迹,所有数据均经人类专家标注。基于不同基础模型的多种智能体在 VeriGUI 上的实验表明,当前系统在处理长周期任务时存在显著性能差距,这揭示了 GUI 智能体亟需增强规划与决策能力。
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference
Seed Diffusion:基于大规模扩散语言模型的高速推理框架
本文提出Seed Diffusion Preview,这是一个基于离散状态扩散 (discrete-state diffusion) 的大规模语言模型,其核心优势在于突破性的推理速度。通过非顺序的并行生成机制,离散扩散模型有效解决了传统逐Token (token-by-token) 解码的固有延迟问题 (如Mercury Coder和Gemini Diffusion等近期研究所示)。在H20 GPU硬件平台上,Seed Diffusion Preview实现了2,146 token/s的推理吞吐量,同时在标准代码评估基准测试中保持卓越性能。其速度显著超越当前主流的Mercury和Gemini Diffusion模型,在代码生成模型的速度-质量帕累托前沿 (Pareto frontier) 确立了新的性能标杆。
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification
我们针对大语言模型(LLM)的监督微调(SFT)提出了一种理论驱动的改进方法,解决了其相对于强化学习(RL)泛化能力不足的问题。通过数学分析,我们发现标准SFT梯度隐式编码了一个会严重限制模型泛化能力的奖励结构。为此,我们提出了动态微调(DFT)方法,通过基于token概率动态缩放目标函数来稳定每个token的梯度更新。值得注意的是,这一单行代码修改在多个挑战性基准测试和基础模型上都显著优于标准SFT,展现出大幅提升的泛化能力。此外,该方法在离线RL场景中也表现出竞争力,提供了一种高效且更简洁的替代方案。本研究实现了理论洞察与工程实践的有机结合,显著提升了SFT性能。代码将在github.com/yongliang-w...
Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training
Cognitive Kernel-Pro:深度研究智能体与智能体基础模型训练框架
通用AI智能体(General AI Agents)正逐渐成为下一代人工智能的基础框架,具备复杂推理、互联网交互、编码和自主科研能力。然而,现有智能体系统多为闭源或严重依赖付费接口和专有工具,制约了研究社区的可获取性与可复现性。本文提出\textbf{Cognitive Kernel-Pro}------一个完全开源且(最大程度)免费的多模块智能体框架,旨在降低高级AI智能体的开发与评估门槛。在该框架中,我们系统性地研究了智能体基础模型的高质量训练数据构建方法,重点针对网络、文件、代码和通用推理四大领域设计查询语句、行为轨迹及可验证答案。此外,我们还探索了测试阶段反思与投票机制等创新策略,以提升智能体的鲁棒性和性能。在GAIA基准测试中,Cognitive Kernel-Pro在开源免费智能体中达到了业界领先水平。特别指出,我们80亿参数的开源模型超越了WebDancer和WebSailor等先前最优系统,为易获取的高能力AI智能体树立了新的性能标杆。代码已开源:github.com/Tencent/Cog...
R-Zero: Self-Evolving Reasoning LLM from Zero Data
自进化大语言模型 (LLMs) 通过自主生成、优化并学习自身经验,为实现超级智能提供了可扩展的途径。然而,现有训练方法仍高度依赖大量人工标注的任务和标签(通常通过微调或强化学习实现),这成为 AI 系统突破人类智能上限的根本性瓶颈。为此,我们提出 R-Zero------一个完全自主的框架,能够从零生成训练数据。该框架基于单一基础大语言模型,初始化两个功能独立的模型:挑战者 (Challenger) 和求解器 (Solver)。这两个模型通过交互实现协同进化:挑战者因生成接近求解器能力极限的任务而获得奖励,求解器则因成功解决挑战者提出的渐进式难题而获得奖励。该过程无需任何预设任务和标签,即可形成目标明确的自优化训练机制。实验表明,R-Zero 显著提升了不同架构大语言模型的推理能力,例如使 Qwen3-4B-Base 在数学推理基准上提升 6.49 分,在通用领域推理基准上提升 7.54 分。
Efficient Agents: Building Effective Agents While Reducing Cost
基于大语言模型 (LLM) 的智能体虽然展现出处理复杂多步骤任务的能力,但其高昂成本严重制约了系统的可扩展性和普及性。本文首次系统研究了现代智能体系统中效率与性能的权衡关系,致力于在保证性能的前提下实现成本优化。我们重点探讨了三个核心问题:(1) 智能体任务本质所需的复杂度;(2) 附加模块的边际效益递减点;(3) 框架设计带来的效率增益空间。通过在GAIA基准上的实证分析,我们评估了LLM主干选择、智能体框架设计和测试时扩展策略的影响,并采用通过成本 (cost-of-pass) 指标量化这些维度的效率-性能权衡。研究结果催生了新型高效智能体框架 Efficient Agents,其复杂度与任务需求达到最优匹配。该框架在保持领先开源方案OWL 96.7%性能的同时,将运营成本从0.398美元降至0.228美元,使通过成本指标改善28.4%。本研究为构建高效能智能体系统提供了实践指导,有力促进了AI解决方案的普及应用和可持续发展。
Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
Genie Envisioner: 机器人操作统一世界基础平台
我们提出 Genie Envisioner (GE),这是一个集成策略学习、评估与仿真功能的机器人操作统一世界基础平台,其核心采用视频生成框架。GE-Base 作为平台基础组件,是一个基于指令条件化 (instruction-conditioned) 的大规模视频扩散模型,可在结构化潜在空间中捕捉真实机器人交互的空间、时间和语义动态。基于此,GE-Act 通过轻量级流匹配解码器将潜在表示映射为可执行动作轨迹,实现在多种具身形态 (embodiment) 间的精确且可泛化策略推断,仅需极少监督。为支持可扩展评估与训练,GE-Sim 作为动作条件化 (action-conditioned) 的神经模拟器,可为闭环策略开发生成高保真仿真结果。该平台还集成 EWMBench 标准化基准套件,用于评估视觉保真度、物理一致性及指令、动作对齐性。这些组件共同使 Genie Envisioner 成为指令驱动型通用具身智能的可扩展实用基础平台。所有代码、模型和基准测试将开源发布。
Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models
扩散大语言模型 (Diffusion Large Language Models, DLLMs) 作为自回归大语言模型 (Autoregressive Large Language Models) 的重要替代方案,兼具高效并行生成能力与全局上下文建模优势。然而,DLLMs 的实际应用受限于关键架构约束:必须静态预定义生成长度。这种固定长度分配会引发显著权衡问题:长度不足将损害复杂任务性能,而长度冗余则会导致计算开销激增甚至性能劣化。尽管推理框架严格预设,我们发现模型内部存在与任务最优响应长度相关的潜在信号。为此,我们利用这些信号提出 DAEDAL (一种免训练的新型去噪策略),实现扩散大语言模型的动态自适应长度扩展。DAEDAL 采用两阶段机制:1) 去噪前阶段,基于序列完成度指标,从短初始长度迭代扩展至粗粒度任务适配长度;2) 去噪过程中,通过掩码 Token 插入精准定位并扩展欠生成区域,确保输出完整性。在 DLLMs 上的大规模实验表明,DAEDAL 性能与精心调优的固定长度基线相当 (部分场景下更优),同时通过提高有效 Token 占比显著提升计算效率。该方案突破了静态长度限制,不仅弥合了 DLLMs 与自回归模型的关键差距,更为高效强大的文本生成开辟了新路径。
DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning
尽管视觉语言模型 (Vision Language Models, VLMs) 展现出强大的感知能力和卓越的视觉推理能力,但在复杂动态环境中仍存在细节关注不足和动作规划精度欠佳的问题,导致性能表现不理想。现实任务通常需要复杂交互、高阶空间推理、长期规划以及持续策略优化,这些都需要理解目标场景的物理规律。然而,在真实场景中评估这些能力的成本往往过高。为此,我们提出DeepPHY基准框架,通过一系列具有挑战性的模拟环境,系统评估VLMs对基础物理原理的理解与推理能力。DeepPHY整合了多难度层级的物理推理环境,并采用细粒度评估指标。评估结果表明,即使最先进的VLMs也难以将描述性物理知识转化为精确的预测控制。
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation
Skywork UniPic:视觉理解与生成的统一自回归建模
我们提出 Skywork UniPic,这是一个15亿参数的自回归模型,在单一架构中统一实现了图像理解、文生图和图像编辑功能------无需任务特定适配器或跨模块连接组件------并证明紧凑型多模态系统可在消费级硬件上实现最先进性能。该模型获得0.86的GenEval评分,超越多数现有统一模型;在DPG-Bench上创下85.5分的复杂生成新纪录;图像编辑任务在GEditBench-EN和ImgEdit-Bench分别达到5.83和3.49分;且仅需低于15GB的GPU显存(如RTX 4090)即可生成1024×1024图像。关键技术包括:(1) 解耦式编码策略,采用掩码自回归编码器处理合成任务,SigLIP2编码器处理理解任务,两者输出共同输入共享自回归解码器;(2) 渐进式分辨率感知训练方案,从256×256逐步扩展至1024×1024分辨率,同时动态解冻参数层以平衡模型容量与稳定性;(3) 精心构建的亿级规模数据集,结合任务特定奖励模型优化生成与编辑目标。Skywork UniPic通过证明高保真多模态融合无需消耗过高资源,为可部署的高保真多模态AI确立了实用范式。代码与模型权重已开源:huggingface.co/Skywork/Sky...
SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension
SitEmb-v1.5:改进的上下文感知密集检索模型,用于语义关联与长文本理解
在长文档的检索增强生成(RAG)过程中,通常需要将文本分割为较小的片段作为检索基本单元。然而,由于原始文档中片段间的相互依赖关系,上下文信息对准确理解每个片段往往至关重要。针对这一问题,先前研究尝试通过编码更长上下文窗口来生成更长片段的嵌入表示。尽管已有这些尝试,检索和下游任务的性能提升仍然有限,主要原因包括:(1) 更长片段增加了嵌入模型需要编码的信息量,导致模型容量不足;(2) 受限于模型或人工处理带宽,许多实际应用仍需返回局部化证据。
我们提出了一种创新解决方案:通过基于更宽上下文窗口的短片段表示来提升检索性能------即在其上下文中定位片段语义。我们进一步发现现有嵌入模型难以有效编码这种上下文感知表示,因此提出新的训练范式并开发了上下文感知嵌入模型(SitEmb)。为评估该方法,我们专门构建了书籍情节检索数据集用于评估上下文感知检索能力。在该基准测试中,基于BGE-M3的SitEmb-v1模型仅使用10亿参数就显著优于包括多个70-80亿参数模型在内的前沿嵌入模型。我们的80亿参数SitEmb-v1.5模型进一步将性能提升超过10%,并在多语言和多个下游应用中表现出色。
PixNerd: Pixel Neural Field Diffusion
扩散Transformer当前所取得的成功很大程度上依赖于预训练变分自编码器(VAE)构建的压缩潜在空间。然而,这种两阶段训练范式不可避免地会引入累积误差和解码伪影。为解决这些问题,研究人员以复杂的级联流程和增加的Token复杂性为代价,回归到了像素空间。不同于这些方案,我们提出使用神经场来建模分块解码,并提出了一个单尺度、单阶段、高效的端到端解决方案------像素神经场扩散(PixelNerd)。得益于PixNerd中高效的神经场表示,我们直接在ImageNet <math xmlns="http://www.w3.org/1998/Math/MathML"> 256 × 256 256×256 </math>256×256上实现了2.15的FID分数,在ImageNet <math xmlns="http://www.w3.org/1998/Math/MathML"> 512 × 512 512×512 </math>512×512上实现了2.84的FID分数,且无需任何复杂的级联流程或VAE。我们还将PixNerd框架扩展到了文本到图像应用领域。我们的PixNerd-XXL/16在GenEval基准测试中取得了0.73的竞争力分数,在DPG基准测试中取得了80.9的总分。