自己的原文哦~https://blog.51cto.com/whaosoft/14066165
#智元灵渠OS
开源!智元机器人正式发布首个xx操作系统框架
稚晖君在WAIC主论坛发布"灵渠OS"开源计划!
2025 世界人工智能大会暨人工智能全球治理高级别会议于 7 月 26 日在上海世博中心举办。本届大会主论坛以 "技术 --- 合作 --- 普惠" 的三层递进结构,汇聚全球人工智能顶尖专家,从技术演进、全球协同、社会赋能三重视角解读 AI 未来发展的时代价值。智元机器人联合创始人兼 CTO 彭志辉(稚晖君)作为唯一的xx智能代表,携灵犀 X2 人形机器人登场,以一场 "从工具到伙伴:人机协作的新边界" 为主题的人机对话惊艳全场,并重磅发布业界首个xx智能操作系统参考框架 "智元灵渠 OS" 开源计划,携手产业界共建开放生态。
人机对话破界:灵犀 X2 演绎 "伙伴级" 交互
在 WAIC 2025 主论坛上,稚晖君与灵犀 X2 的对话成为全场焦点。该对话围绕 "机器人是工具还是伙伴""人机协作的核心挑战是什么""人机协作的终极目标是什么" 等深刻话题展开。作为世界人工智能大会举办以来首位以 "嘉宾" 身份登上主论坛的机器人,灵犀 X2 凭借 "本体 + 运动 / 交互 / 作业智能" ,展现出超乎期望的表现:丝滑流畅的肢体动作搭配自主生成的高质量问答,让人耳目一新。
当稚晖君问及 "人机协作中最关键的挑战" 时,灵犀 X2 回应:"技术当然重要,但更关键是'理解',人类对机器的理解,和我们试图去理解人类的意图。真正协作是建立在'共识'的基础上。"拟人化的表达与动态交互,直观诠释了xx智能从 "工具属性" 向 "伙伴关系" 的跨越。更令人惊喜的是,环节结束时,检测到电量亏损的灵犀 X2 突然 "吐槽":"下次对话前,可以先让我充个电吗?深度对话还挺耗电的。" 引发现场一片掌声和欢笑,生动展现了人机交互的温度与活力。
这场对话不仅是技术成果的展示,更传递出智元对人机关系的前瞻性思考:当机器人具备理解、预判、协同的能力,人机协作将突破传统边界,在工业、家庭、服务等场景创造全新价值,在此同时,我们也要去构建人机信任的边界。人工智能是年轻的事业,也是年轻人的事业。作为xx行业的 "年轻人",智元机器人致力于打造有生命的科技,构建有温度、有价值、可信赖的人机协作生态。稚晖君表示:"这会是一段漫长而艰难的旅程,但智元会坚持深耕,也希望与更多同行者一起,用理性、热情与使命感,把这条路走得更稳、更远。"
发布"智元灵渠 OS"开源计划:构建xx智能产业生态基石
在全场瞩目下,稚晖君通过灵犀 X2 正式发布 "智元灵渠 OS" 开源计划 ------ 这是业界首个xx智能操作系统参考框架,旨在推动当前机器人系统生态融合、xx智能新技术突破。
据悉,"智元灵渠 OS" 将以 "分层开源、共建共享" 模式推进:底层基于智元已开源的高性能中间件 AimRT持续增强,提供稳定、高效的分布式群体实时通信、硬件抽象等基础服务框架;上层开放智能体服务框架,支持交互、作业、运动等智能基座模型的标准化对接,降低应用门槛;同时,提供丰富的工具链,涵盖开发调试、仿真验证、部署管理、数据录制等能力,助力开发者快速构建从虚拟仿真到实体部署的技术闭环。
该计划将于今年第四季度开始逐步开源,与产业界开源共建xx智能操作系统生态,聚力突破xx智能系统在智能化提升、群体协同、云边端融合等新技术上的挑战。如同 PC 时代的 Windows、移动互联网时代的鸿蒙,xx智能操作系统承上启下,南向适配多样化xx硬件、北向支撑丰富的智能应用,是xx智能机器人全栈的核心,也是产业生态的基础。智元机器人已经开源并持续增强高性能中间件 AimRT,未来将面向机器人持续增强基础操作系统,开源共建智能体服务框架和工具链,支持xx智能机器人产业加速发展。
从主论坛的人机对话到开源生态的布局,智元机器人以 WAIC 2025 为舞台,不仅展现了xx智能的硬核实力,更以开放姿态引领行业协同发展,为xx智能规模化商业落地注入强劲动能。
#聊聊 MoE 模型的量化
众所周不知, MoE 模型由于内存和计算开销较大,在部署时面临巨大挑战主要就是非常高的显存需求。
简单说就是,放不下。
但是,又不用都算。
前面我们的几篇笔记都是在解决这个问题,如 笔记:ktransformer/llama.cpp/vllm + int4 671B DeepSee...笔记:聊聊 MoE 负载调度笔记:再聊 MoE 中的异构资源调度 等,大部分是通过 GPU CPU 协同工作来推动 MoE 模型在资源受限设备上的卸载部署方法。但是卸载方法的运算速度瓶颈就很受限于 CPU。所以还有另一个思路就是 量化 ,本质上是压缩技术,以降低内存和计算需求。
MoE 模型在 4 位 3 位量化时会遭受不可忽视的精度损失,这在 dense 模型时相对没有那么大的问题。对 MoE 模型进行量化会带来一些独特挑战,这是因为其稀疏、动态的计算模式。我们都知道的,传统的激活量化方法是没有考虑依赖门控而产生的结构性稀疏专家异常值的,所以目前之间对 MoE 进行量化就肯定会导致不稳定的量化步骤。这些特点会在后边的论文中得到各种体现。在这篇评测中 Evaluating Quantized Large Language Models(arXiv:2402.18158),亦有报告。
以下几篇相关论文差不多都是 25年03-07 区间的新文章,发现和方法都很像,名字也都很像,算是一个集中爆发期。很像去年的 量化那些事之KVCache的量化。
- QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models, arXiv:2310.16795, #GPTQ作者团队 #1600B MoE 模型
- MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness, arXiv:2503.21135 #跨数据校准 #混合精度
- MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design, arXiv:2505.05799 #混合精度 #根据 Roofline 选择精度 #细分 FFN 模块量化
- MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance, arXiv:2505.03804 #无监督校验数据生成
- EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization, arXiv:2506.13329 #PTQ 优化 #INT3 优化 #KL 散度量化 loss
- MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators, arxiv:2504.02658 #INT3优化 #低秩补偿
- Fate: Fast Edge Inference of Mixture-of-Experts Models via Cross-Layer Gate, arXiv:2502.12224 #MoE 调度 #混合精度量化 #PD 区分量化
- MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts, arXiv:2506.07533 #利用门控解决 KVCache 压缩问题
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
这篇是今天几篇论文中最早的一篇,23 年的 arxiv,24 年 MLSys 录用, 前瞻性很强 ,作者是 GPTQ 的作者。
主要优化的模型:SwitchTransformer-c2048。
GPTQ 是当下很多模型量化的首选方法之一,广受欢迎。本文相当于是对 GPTQ 量化方法的一种的实践。
这篇文章使用的模型是一个非常不常见的极大模型,名叫 SwitchTransformer-c2048,有 1.6 万亿个参数,也就是 1600B 的模型,存 fp32 的话需要 3.2TB 的显存。我们很熟悉的 DeepSeek R1 满血版模型,是 671B 的,虽然在一个量级上,但是比这个小,最近的 Kimi K2 模型 1000B 也算是赶上来了。总之这些尺寸的模型,量化是很直观的优化方法。
这个模型是个典型的 MoE 模型,模型名称中的 c2048 表示的就是模型中包含 2048 个专家,是 google 在 2021 年提出的,一个是出来的早,另一个是足够大(优化空间大),后边还有文章中也用的这个模型作为优化目标。(怎么说呢,有点像 opt?)
所以 QMoE 包含一种可扩展的 动态稀疏量化框架 算法,将1.6万亿参数的Switch Transformer-C 2048模型压缩到小于 160GB(压缩了 20 倍,bit per weight bpw 是 0.8 ),也就是压缩到每个参数实际占比小于 1 位,同时与定制的 GPU 解码内核协同设计,以实现高效的端到端压缩推理。实际上也不小,不考虑 kvcache 空间的话,如果全部在 GPU 运算那么 80GB 的 A100 也能用两块三块的,也不便宜。
文章中虽然多次提到模型从 GPU 卸载到 CPU 内存中,但是我认为实际上作者使用的方法并没有 offload ,而是都在 GPU 中计算的,并且非专家的层,还是使用的 bf16 ,专家基本上是 2bit 也就是三进制(-1,0,1)这种进制,压缩方法就是用 GPTQ 算法对分组专家进行的处理。(GPTQ 的量化压缩方法中还有一些压缩率和掩码的细节这里不展开了)
那么 0.5 的压缩比是怎么来的?bf16 是非专家层,2bit 是专家,这样也做不到 20 倍加速比呀,所以它有一个 Sub-1-Bit Compression 的提法,这个方法的逻辑是这样的:三进制(-m, 0, m),加上权重通常接近正态分布这一事实,自然会导致量化后出现高稀疏性,即大量的零,这里称为接近 90% 的自然稀疏性。这样的状态可以使用稀疏矩阵乘法的方法进一步优化获得最终小于 1 bit 的 bpw。当然,这样的稀疏化方法因为只保存非零位,和它们的索引位置,因此必须有专门的 sparse gemm 方法也就是 CUDA kernel 来做高效支撑。文章中对 CUDA kernel 的介绍也比较详细。
所以,QMoE 是比较典型的《混合精度量化》MoE 量化方法。
MoQa: Rethinking MoE Quantization with Multi-stage Data-model Distribution Awareness
作者主要来自北大和字节,2505 的文章,很新。
主要优化的模型:OLMoE、MoE-Girl、Qwen-MoE-14B、Qwen1.5-MoE、DeepSeek-MoE-16B。
作者认为现有的量化方法已逐渐将重点从参数缩放转移到数据分布分析上,但是 MoE 模型的模型数据分布和 dense 密集模型完全不同,因为专家利用率是和输入数据分布是有极高相关性的。
我认为本文的核心观察就在于不同的输入数据分布下,专家重要性差异很大。如图 3 所示。在 WikiText2 下,第 28 个专家表现出较高的专家重要性,而在 C4 下,第 28 个专家表现出非常低的重要性。这里长尾分布的横轴代表的是 token 映射,在图二和 III.A 章节中进行的分析,基于这个映射,再获取到的所谓专家重要性。(不过这里我个人是有疑惑的,我并不认为出现多的 token 就一定很重要,出现少的就一定不重要, 或许真理就是掌握在少数人手中的 。所以 我认为这里的专家重要性 expert significance 更像是一个 expert profile )
这表明 MoE 使用不同的专家组合来适应不同的输入数据分布。 而不同的输入数据分布是当前诸多量化方法在量化时进行校验时的核心依赖关系。 例如 GPTQ、SmoothQuant 就是依赖静态的一对一数据-参数映射(即单一模型拟合全局数据分布),这明显是个很大的问题。
所以综合考虑多个输入数据分布下专家的作用已成为一个难题,因此作者提出用多输入数据集拟合成一个联合分布,如下图 4 。这图不是把两个数据集分别作为横轴和纵轴,而是有多个数据集作为 X 轴,专家作为 Y 轴来的。按作者的说法 Z 轴都高的专家肯定是重要的(同理存疑),也就是文中所言专家综合性能。
通过前面的分析,我们发现MoE量化有两个要求(这两个要求是有道理的):1)MoE 需要根据专家的重要性进行专家级别的混合精度量化。2)MoE 需要有动态调整的能力,以适应各种新的输入数据分布,这意味着固定的量化方法不是最优的。所以需要有,多对多映射关系:多个专家协同拟合动态数据分布,参数重要性随专家组合变化。专家间重叠与离散化:专家功能存在重叠,但参数敏感性差异显著,需差异化量化。
我们再来详细看看这个多阶段的量化方法,第一阶段量化策略是专家级别的混合精度基础量化,对于共享专家和重要性高的专家,使用较高的精度(如INT8)进行量化以保持性能;对于重要性低的专家,使用较低的精度(如INT2)进行量化以获得更大的压缩比。"预校准-自适应-微调"三阶段框架,动态数据-多专家映射,通道级量化调整,预校准:基于专家路由概率(输入分布)初始化量化缩放因子;自适应:在线调整专家的量化范围(如根据实时输入动态缩放);微调:通过知识蒸馏修复专家间的交互误差。
MoQa 先使用一般的量化方法进行基础量化,再使用 通道级量化动态调整 专家性能以适应新的分布,也就是多阶段的量化方法。
所以第二阶段利用前面得到的联合数据分布 J,按分布的显著程度(如图 5 中 Z 轴的区间)对不同的专家进行了 INT2、INT4、INT6 和 INT8 四种量化方法的区分,进行了专家级混合精度量化,并将此称为基础量化。
基础量化后,在已知的输入数据分布上,混合专家模型可以在量化损失和压缩率之间实现最优权衡。通道级动态量化调整。通道比专家的粒度要小,就是专家 FFN W1 矩阵的列。
类似 AWQ 的发型权重矩阵中极少数通道(约1%)对量化最为敏感,这会影响性能。因此,选择使用这些通道而非整个专家作为 "可调节开关",这样可以显著降低动态调整的开销。所以作者 首先计算在新输入数据分布下 MoE 权重的梯度 (也就是根据量化误差 loss 计算的梯度,本质上就是 loss,能够有效地反映通道对量化的敏感度),并根据梯度大小筛选出 1% 最敏感的通道及其索引。现在作者要使用这些通道实现量化调整,其具体的方法是将 1% 的敏感通道择出来使用 fp16 进行计算。因为只有 1%,这种开销可以忽略不计。
MxMoE: Mixed-precision Quantization for MoE with Accuracy and Performance Co-Design
作者主要来自,上海交大,上会 AILab,北大,字节,港中文。2505 的工作。
使用的模型主要包括:DeepSeekV2-Lite,Qwen1.5-MoE,Qwen2-MoE,Mixtral-8×7B。
本文明确的就是对混合精度(异构量化)方案进行加速。作者首先认为因为量化对不同网络结构组件参数的影响不尽相同,loss 都有很大差异(下图 a),所以混合精度计算在准确性方面通常优于均匀精度量化。因为 MoE 模型尤其是混合精度增加的复杂性会导致系统开销增加,这是显而易见的,MoE 本来优化就复杂,混合精度计算量和计算延时还都不一样。所以作者直截了当说他们的目标是 在增强 MoE 模型量化的同时,实现有意义的加速 (这话说的,跟我写博客一样敢说话)。
然后,从硬件角度看,硬件在计算矩阵时的状态内存受限和计算受限,这一般可以有 Roofline 定律来描述(上图 b 左图),同时,作者发现不同的量化方法通过 Roofline 定律可以发现其各种量化方法明显的不同之处,A4 A8 两种方法,明显没有遇到计算墙。而 A16 的两种方法,都撞到计算墙了。A8 应该也要在横轴到 180 的时候撞到计算墙了,只是图上没有画了。同时,专家在计算过程中,在不同的 batch 和不同请求下,激活比例不同,激活比例高的专家计算量大,需要用更小的计算带宽,所以是 W8A8 更加友好。激活比例低的专家相对计算量就低,可以使用小的位制带宽,计算时则可以使用高带宽计算,也就是 W4A16。(不过我感觉这里用 W4A8,也未尝不可)。
基于以上两个发现,在实现简单说,作者使用的方法是对 单个 MoE 块进行了更细粒度的划分 ,称为线性块(这里就是 Gate、Proj_Up、Proj_Down 三个矩阵),不同块中的量化敏感度不同,使用的量化方法不同。同时不同的专家间也使用不同的量化方法,如上一段所示。图 3 则是这样设计的一个整体设计,其实就是 不同 MoE 使用不同的量化方法,不同的块也用不同的量化方法 ,各种组合,动态过程中进行的组合,根据离线的统计、硬件信息,输入特点进行各种预测。同时,本文还有很 solid 的 work,编写了相应的 gemm 算子 kernel,以追求更优的吞吐量性能,作者称之为 GEMM Orchestration 矩阵乘法编排。图 2 是论文中对各种低精度 MoE 模块的计算吞吐量的比较。
MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance
作者主要来自后摩科技和东南大学。2505 的文章,也比较新。
面向的量化场景也是的 PTQ 优化。
主要优化的模型:Qwen-MoE-14B、DeepSeek-MoE-16B、Mixtral-8x7B。
首先作者认为,MoE 模型在量化过程中的 精度损失 与 负载不均衡 问题,注意注意,这里的负载不均衡指的是在量化过程中的负载不均衡,也就是不同的专家对于校准数据集的响应不均衡。 量化时的校验数据集很重要,在 MoE 量化时则更为重要 。而现在的 PTQ 方法通常依赖特定领域的校准数据集。所以负载不足的专家自然接收的校准不足,从而导致显著的量化误差。然后作者提出一个概念,叫做样本与专家之间的 亲和度 ,用来描述这种不平衡性。和前面 MoQa 中的 significance 类似,也是从每个专家的角度来看,样本表现出不同程度的亲和度,也就是样本与其分配专家之间的相关性。
那么,一种直观的方法是通过 从多个领域采样数据来构建一个领域平衡的校准集 ,潜在领域的数量几乎无穷无尽,这种直观的方法是不切实际的。另外一个问题是, 采样数据集还有可能与模型的固有分布不一致 。当然,作者的思路还是构建平衡校验集这个思路,但是没有蛮干,而是使用了采样的方法,文中名叫自采样(Self-Sampling),简单说就是利用大语言模型自己的采样能力来构建校准数据。这里我的理解是从固定的起点开始,让大模型自己自回归运行,得到验证集。固定的起点应该是模型自身的词汇表,自回归运行时会产生分支,一般会选择最优的预测分支,直到 EoS。这中间还有一些路径剪枝的优化方法,目标也是忽略低概率分支。以上就是本文中 EBSS (Expert-Balanced Self-Sampling)的大体思路,论文中形式化了部分公式来证明自己的有效性。我认为这种方法思路来源于弱监督无监督学习,自己监督自己生成数据,再通过这样的数据完成自己的量化过程。
(笔者评论:不过,在后续的实验中,没有更多篇幅介绍生成出来的数据集,或者叫做采样出来的数据集更多的特点了,只在图 4 中有一个 ppl 的描述。其实我倒是很关注每次量化时,真实数据和采样生成数据的数量和比例关系)
然后是亲和度引导量化的方法,这个和前面 MoQa 中的 significance 非常类似,不过这里的亲和度得分就是 MoE Gate 输出的数值, 简单说就是量化过程中将门控系数纳入逐层校准 。
另外,本文这个量化优化方法是可以在其他大多数量化基础上完成的(今天介绍的大部分论文都是这样的),文中主要采用了 AWQ 和 GPTQ 作为基准。
EAQuant: Enhancing Post-Training Quantization for MoE Models via Expert-Aware Optimization
这篇作者主要来自华为和北大,2507 的文章,非常新。
主要优化的模型是:OLMoE7B,DeepSeek-MoE16B,Mixtral8x7B。
面向的量化场景是:在 W4A4 和极端 W3A4 量化方法(算是较为激进的量化方法)的 PTQ 优化。优化方法比较偏算法底层,其发现和解决方法,都比较有价值。
作者的发现是路由器的专家选择机制对量化引起的对数几率扰动高度敏感。说人话就是,即使门控分数出现微小偏差,也会扰乱前 k 个专家分配逻辑,由于令牌路由错误而降低模型性能,同时很少被激活的专家在参数校准期间数据覆盖不足,导致量化参数估计不准确和较大的量化误差。这些其实在其他几篇论文中也多被发现和提及。
具体方法一,构建一个统一的通道级平滑向量。我们所熟悉的 SmoothQuant 和 OmniQuant 方法中都指出,激活张量中的少数通道通常会呈现出幅度极大的异常值。SmoothQuant 就是通过合并平滑向量技术来缩放激活张量的动态范围。此外,平滑向量可以合并到前面的归一化层中,不会产生额外的计算开销。作者希望在 MoE 结构中得到一个统一的平滑向量,以提高在不同专家间的泛化能力,也就是无论当前 token 将被路由到哪个本地专家,都能抑制激活中与通道相关的极端值。具体方法则是通过对专家特定要求进行逐通道最大化来实现。(对于这个方法,我是存疑的,这种所谓的泛化能力是否会对具体激活时候那个专家的值域而言显得太大了?)
具体方法二,叫做双目标校准策略。出发点是为了在量化后保持路由器专家选择的准确性,通过 loss 函数的设计策略来控制数值精度和路由分布一致,作者认为传统的均方误差目标仅校准量化前后对数幅度的绝对差异,不够好,而使用 KL 散度最小化专家选择概率中的分布差异。(逻辑上没问题,后续的消融实验也有所证明,之所以对 MoE 有效,我理解可能应当是将没有激活的专家中的部分信息也归纳进来一同计算了)
具体方法三,是为了解决 PTQ 中专家激活不平衡问题,我理解这里的问题应该是量化之后门控结果发生了变化,这可能是因为层间量化误差影响了后续层量化专家的选择。我认为这里的核心方法应该是除了校准专家参数,还需要 在 PTQ 过程中校准非专家参数 。这个解决问题的发现和解决方法,我觉得非常很有见地。
MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators
作者主要来自 UIUC,2504 的文章。
主要是针对 INT3 量化场景。
使用的模型是 DeepSeek-MoE(2401),Mixtral - 8×7B。
和前面几篇文章面临的问题是一样的,大部分已有的量化方法,在已有的数据校验集上量化,int3 损失就很大。同时,对于 MoE 模型,INT3 权重量化且批量大小大于 1 的情况下,很难将极端量化的理论节省转化为实际的加速。很多文章确实是这样的,只报告了精度,但是没有报告速度。因为一些硬件的原因,可能低 bit 速度还慢些。
文章中宣称:专家激活频率存在差异(这个其实大家都知道了)。例如,在 DeepSeek-MoE (因为引用的 2401 的 DeepSeek-MoE 论文,所以这个模型是 V1 同期的,)中,同一层中激活频率最高的专家比激活频率最低的专家被激活的次数多11.7倍(人家后续 V2、V3 改进很多)。(文章选择的另外一个模型是 Mixtral - 8×7B,也是一个感觉没有训好的 MoE 模型)
另外一个观察是,INT3 量化能够捕捉到极值,而信息损失主要发生在相对非重要的权重值上。作者认为量化在充分捕捉异常值的同时,牺牲了对中等值的表示作为权衡。
基于这样的发型,作者希望提出一种方法来恢复这些值的信息损失。通过 混合低秩补偿器(lowrank compensation,Exploring post-training quantization in llms from comprehensive study to low rank compensation. AAAI 2024), 增强低比特表达能力,具体说就是将残差矩阵(量化前和量化后的差)进行 SVD 分解,将其中的低秩还原矩阵拿回来补偿以减少量化后的误差。核心方法就是这个了,说的比较简单,不展开了。
Fate: Fast Edge Inference of Mixture-of-Experts Models via Cross-Layer Gate
作者主要来自中山大学、鹏程实验室、华为和港中文。作者团队前面还提出了 Klotski (笔记:聊聊 MoE 负载调度)
面向的场景是,如何把稀疏激活的 MoE 大模型搬到资源受限的边缘设备上,而量化则是文章中的一个点。我认为也挺重要的,就拿过来一起学习一下。
使用的模型是 Qwen1.5-MoE,DeepseekMoE。
因为 Fate 方法是利用相邻层的 gate 输入提前预测下一层会激活的专家,实现高准确率的预取(prefetch),所以针对缓存和加载过程,设计了 定制化的量化策略 ,进一步压缩专家参数体积,提升加载速度。
在 Fate 中,量化使用的是 HQQ 方法,这不是最最重要的。而是围绕什么时间对什么数据采用什么量化方法,做了一套端到端、混合精度的量化、调度协同机制。与前面几个方法不同的是,因为 fate 是 CPU offload 方法,所以 fate 分为 CPU MEM 缓存阶段(统一使用 int4 存储),和实际运算传输阶段。实际运算传输时,又分为 prefill 和 decode。prefill 阶段影响较大,因此会按照受欢迎程度 popular(有点像前面文章的 significance 和 affinity 的概念)排序,将不受欢迎的专家不传 int4 而传 int2 (提前量化好了),受欢迎的还是 int4 传输。decode 阶段一律使用 int4,这是因为在单机场景下,一般 batchsize 为 1,就不区别了。
MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts
本文作者主要来自华中科大和平安科技,2506 的文章。
这篇文章是为了在处理长序列数据时,量化压缩 KVCache 的方法,但是是通过量化感知专家实现的。这篇文章其实不是 MoE 架构的优化,而是借用了 MoE 的特点,利用 MoE 方法中的路由器选择最合适的量化比特宽度。有点像 MoBA 用 MoE 门控选择上下文注意力机制类似。笔记:MoBA 与 Native Sparse Attention
#英伟达自动驾驶算法工程师面试
具体职位:规划控制方向,自主记忆泊车-自动开出,职位描述在最后。nv大军压境入局自动驾驶,和其他主机厂、L4创业公司相比最大的区别就是职位划分真的非常细。hr表示nv今年没有校招名额,只有这个实习转正(说大概率可以转正),拿到offer后支持线上实习。笔试之后总共面了5轮通过,笔试3道题,另外每面都有1-2道算法题。
笔试
已经记不太清了,一道打卡题图搜索,一道模拟没做出来,最后一道是leetcode难度中等的动态规划,给定一个数组,每次可以对相邻的两个数进行异或操作,操作次数不限,问操作过后的结果相加最大是多少。问题转化之后和leetcode上一个小偷最多可以偷多少房间类似(不能偷相邻的不然会触发警报)。测试用例第一题过了90,第二题寄了,第三题应该是边界没处理好过了70%。
一面
按流程自我介绍,问了几个项目,着重问了参加比赛的经历,怎么管理和领导团队。单独拎出之前做的一个agv底盘的规划,如何构造MPC的优化问题,用什么求解器,使用了哪些约束,为什么要这样表示避障约束。针对我的回答会稍微再深挖一下,比如软硬约束的区别、常用什么barrier function。知道哪些非线性优化器,GN/LM/共轭梯度的关联和区别,line search和trust region什么时候用。QCQP怎么求解,iLQR和DDP的区别。
coding:手写一个链表,然后把两个升序排列的链表合并,维持升序。实现链表的拷贝构造、复制构造和移动构造。
反问环节问了下工作内容是什么,为什么职位划分这么细,目前主要客户是谁。
二面
简单问了一下项目,面试官说对slam不太懂能不能给他用通俗的语言讲讲之前的做的slam项目。之后着重问MPC和规划,全局规划和局部规划的理解,hybrid A* 知道吗,讲讲大概的流程,除了graph search之外还有什么类型(state lattice),怎么求解tbvp。最后问了对深度学习了解多少,讲了简历里的一个目标检测和关键点检测的项目。
coding:mxn的棋盘,从左上角开始,只能往右和往下走,问走到右下角最多有多少种方式?一开始没多想写了个BFS,面试官提示会超时,于是改成动态规划。面试官说知道记忆化搜索吗?能不能改成这种实现?最后又在图中添加障碍物。
反问:工作中会经常参考paper吗,组内和组间合作是否紧密。
三面
介绍项目,以之前参加比赛做的项目为脉络发散。没怎么问规划的东西,说看我简历上写的对控制很熟就不问了(也有之前面试记录)。应该是主要做深度学习的,问了几个dl相关的问题,尤其是图像。最后问我如何看待规划和决策和耦合,应该统一还是解耦。
coding:找出数组中topk大的数,一开始以为是部分快排,后来他说topk都要找出来,就想到用堆,但是写的时候实现的方式错了,面试官说可以用STL。我说用优先队列,他问stl里可能是怎么实现的,然后在他引导下写完了。又问了堆排序的平均时间复杂度。
四面
先介绍项目,然后从之前做的规划项目里详细问了hybrid A* (估计是因为这个hc就是给泊车的),详细介绍算法每一步的流程,和A* 的区别是什么,怎么生成新的候选点,怎么剪枝。还知道哪些考虑了运动学约束的算法?答了kinodynamic-RRT,问这个算法还能怎么改进(双向生长、rewire、targt orientation guide)。得到初始轨迹以后局部规划怎么设计等。
coding:leetcode题,岛屿数目,之前面美团的时候做过,dfs一下就写出来了。
三面结束之后马上四面,反问的时候问为什么连续面两次(结果面试官说可能是时间安排方便吧,我只能尬笑),又问了下是不是工作中解决的工程问题居多。
五面
技术主管,全英文面。自我介绍完以后主要问了2个项目,一个是嵌入式相关的(多传感器时间同步),一个是参加rm比赛做的目标运动状态估计,这个用了扩展卡尔曼滤波,然后让我讲讲EKF的原理,工程上调参有哪些经验。
最后问了几个实习相关的问题,什么时候能到岗,可以来多久,如果有其他offer会怎么选择。本来以为没有coding了,反问完以后说,我们还是来写道简单的题吧 ,反转链表用递归和迭代实现。那天也不知道干啥脑子抽风了,迭代总想着用2个指针,递归终止条件也没写对,他说没事你可以调试然后我就在那gdb折腾半天也没弄出来。最后面试官说没事你可以结束之后继续写,写好了发给我。
好不容易搞到最后没想到挂在一个简单题上也是有点难绷,本来以为挂了没想到过了一周hr打电话来说通过了, 非常amazing。结果没两天突然传来nv被制裁的消息,mentor打电话说所有招聘被暂缓了,也不知道是不是在池子里被人挤下去的说辞,最后还是无缘核弹厂了,线上实习真的很香啊。
JD

在nv官网投递的,原来的那个职位关闭了,链接是boss上找了个类似的:https://m.zhipin.com/job_detail
#Talk2DINO
开放词汇分割新SOTA!让分割又快又准还懂人话~
论文标题:Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation
论文作者:Luca Barsellotti等
作者单位:意大利摩德纳和雷焦艾米利亚大学等
论文链接:https://arxiv.org/pdf/2411.19331
开源链接:https://lorebianchi98.github.io/Talk2DINO/
背景与动机
开放词汇分割(Open-Vocabulary Segmentation, OVS) 是计算机视觉领域的一项基础任务,其目标是根据推理时提供的自然语言概念,将输入图像分割成一系列连贯的区域。与传统分割任务不同,OVS所使用的概念集合通常以自由形式的自然语言提供 ,这使得相关方法摆脱了仅依赖训练时给定的特定固定类别集合的限制。要完成这一任务,需要对图像像素与自然语言所传达含义之间的语义关联有细粒度的理解。
在OVS领域,以往的研究多采用像素级标注作为监督信息 ,但近年来,利用最先进的骨干网络所学习到的相关性,以无监督方式解决该问题成为一种趋势 。对比性嵌入空间(如CLIP)在需要整体理解视觉和语言模态的任务中表现出良好性能,因此被应用于无监督OVS。然而,基于CLIP的骨干网络 虽然具有强大的跨模态能力,但它们主要是为了预测文本和图像之间的全局相似度分数而训练的,这限制了其空间理解能力,进而影响了基于密集预测的任务表现。尽管已有研究通过引入架构修改来解决这一限制,但训练方式带来的空间理解约束仍然阻碍了这些骨干网络在OVS中的有效性,这凸显了探索具有更强感知能力的替代模型的潜在价值。
自监督纯视觉骨干网络(如DINO和DINOv2) 在无需标注数据的情况下,展现出捕捉细粒度和局部空间特征的显著能力。这类骨干网络中的自注意力机制生成的注意力图能够持续定位图像中的相关区域,因此被广泛用于前景目标分割。然而,视觉自监督网络所产生的嵌入空间与文本概念并非固有对齐 ,这使其与OVS任务不兼容。

图1. 概述。我们的方法通过一个习得的映射函数对齐CLIP和DINOv2的嵌入空间。这产生了细粒度的视觉编码,这些编码可以映射到语言,从而提供自然且噪声更少的语义分割。
正是由于现有的视觉-语言模型(如CLIP)在空间定位方面存在挑战,而自监督视觉模型(如DINOv2)虽在细粒度视觉编码方面表现出色却缺乏与语言的整合,两者之间存在明显的差距。为了弥合这一差距,研究人员提出了Talk2DINO方法,旨在结合DINOv2的空间准确性和CLIP的语言理解能力,实现高度本地化的多模态图像理解,从而推动OVS任务的发展。
核心创新
- 提出了Talk2DINO模型,这是首个直接对齐DINOv2和CLIP特征空间以用于OVS的模型。通过使用非线性扭曲函数将CLIP的文本嵌入映射到DINOv2空间,Talk2DINO有效地为DINOv2赋予了语言属性。
- 所提出的模型采用了一种新颖的训练模式,该模式能够选择最相关的视觉自注意力头,并且不需要对骨干网络进行微调,在仅学习少量参数的情况下实现了良好性能。
- 展示了Talk2DINO在无监督OVS中的能力,设计了计算高效的推理管道,其中包含了一种基于DINOv2自注意力的背景清理新方法,提升了分割效果。
核心方法细节

图2. Talk2DINO训练方法概述。我们学习了一个投影函数,用于将CLIP的文本嵌入映射到DINOv2的视觉嵌入空间。给定从DINOv2中提取的密集特征图和注意力图,我们通过计算特征图与每个注意力图的加权平均值,生成N个视觉嵌入。然后,我们计算每个视觉嵌入与投影后的文本嵌入之间的相似度,并应用一个选择头函数来产生全局相似度分数。我们使用最大相似度分数来对齐文本空间和视觉空间。
Talk2DINO的核心方法围绕着将CLIP的文本嵌入空间与DINOv2的视觉嵌入空间进行对齐,并利用DINOv2的注意力机制来提升分割性能,具体细节如下:
基本任务定义与前提
开放词汇分割任务中,设图像,其由基于Transformer的视觉骨干网络提取的密集特征图为(输入补丁大小为P,嵌入空间维度为);设任意文本类别集合为,其由预训练文本骨干网络提取的嵌入为。在多模态设置中,若,图像I和类别的相似度图定义为文本嵌入与每个空间位置的视觉特征的余弦相似度,通过上采样可得到全分辨率相似度图,分割掩码则通过将像素分配给具有最高相似度分数的类别得到。这一过程要求视觉和文本的嵌入空间不仅维度相同,还需具有相同的语义。
CLIP和DINOv2存在对偶性,CLIP等视觉-语言模型能自然适应上述公式,但其在文本特征与空间补丁特征的精确对齐方面存在不足;而DINOv2等纯视觉自监督骨干网络的空间嵌入具有显著的语义和局部一致性,但缺乏与自然语言的有效连接,无法直接用于上述相似度计算。研究表明,CLIP的文本嵌入空间可通过可学习的非线性扭曲和仿射变换投影到DINOv2空间。
增强DINO的语义:CLIP嵌入空间的扭曲与映射
为将文本嵌入映射到DINOv2的视觉补丁嵌入空间,学习了一个投影,该投影通过将两个仿射变换与双曲正切激活函数组合而成,公式为,其中和是可学习的投影矩阵,是可学习的偏置向量。
为学习该非线性投影,利用DINOv2固有的分割能力来确定视觉补丁特征中与应对齐的精确空间子集。首先从DINOv2的最后一层提取N个注意力图(每个对应一个注意力头),每个能突出图像中不同的语义区域。对于每个注意力图,通过对特征图进行加权平均计算出视觉嵌入,其中权重为注意力图经softmax处理后的值,即。然后计算每个与投影后的文本嵌入的余弦相似度,并通过选择函数对不同注意力头的相似度分数进行选择,选取所有注意力头中的最大相似度分数,以促进文本和视觉表示之间的稳健对齐,适应与文本查询对应的最显著视觉特征。
训练过程
为优化文本和视觉嵌入之间的对齐,采用InfoNCE损失,该损失利用一批图像-文本对的相似度分数。对于每个图像-文本对,计算投影后的文本嵌入与最大激活的视觉嵌入之间的相似度分数,其中是从与对应文本最相关的注意力头导出的视觉嵌入,即。
将真实的图像-文本对视为正例,批次内的其余对视为负例,这种对比方法促使模型提高匹配对的相似度,降低非匹配对的相似度。对于一批B个图像-文本对,InfoNCE损失定义为。
背景区域识别:背景清理程序
为提升模型识别背景的能力,提出基于DINOv2骨干网络自注意力头的背景清理程序。给定N个注意力图和M个类别的投影文本嵌入,首先如上述方法计算平均视觉嵌入,然后计算每个与的相似度,得到相似度分数矩阵,并对其进行行归一化(通过softmax操作)。矩阵定义为,其中。
对于每个类别,计算其平均注意力图,公式为,并对进行空间轴上的softmax归一化,再将其值线性重新投影到相似度图的值域范围内。最终每个类别的增强相似度图通过相似度图和背景清理图的凸组合得到,公式为,其中是一个超参数,表示背景塑造在计算分割掩码中的相关性。背景区域的分割掩码则被识别为在所有语义类别中,增强相似度图低于某个阈值的像素集合。

图3. 推理过程。在上半部分,我们计算映射后的文本嵌入与DINOv2补丁之间的相似度,以生成初始相似度图。在下半部分,我们为每个类别生成一个背景清理图,该图源自不同的DINOv2注意力头。我们通过相似度图和背景清理图的凸组合,得到每个类别的最终增强相似度图。输出的分割掩码由最后的细化和阈值处理步骤生成。
实验验证
实验设置
- 数据集:在八个广泛使用的语义分割基准上进行评估,根据是否包含背景类别进行分类。其中,在Pascal VOC 2012、Pascal Context、COCO Stuff、Cityscapes和ADE20K的验证集上进行实验,这些数据集分别包含20、59、171、150和19个语义类别且不包含"背景"类别;还在COCO Objects数据集(包含80个前景目标类别)以及修改后的包含"背景"类别的Pascal VOC 2012和Pascal Context版本上进行了额外实验。
- 实现细节:主要实验采用DINOv2 ViT-B/14作为基础模型,DINOv2 ViT-L/14作为大型模型,均搭配CLIP ViT-B/16文本编码器,使用带有寄存器的DINOv2变体,将输入图像调整为518×518以匹配DINOv2的原始训练分辨率,得到37×37的补丁。在COCO Captions 2014训练集(包含约80k图像)上,使用Adam优化器、128的批次大小、的学习率训练模型100个 epoch。为抵消最终掩码中的不准确之处,采用像素自适应掩码细化(PAMR)进行掩码细化,背景清理中设为5/6,相似度分数的阈值设为0.55以确定"背景"类别,使用掩码细化时PAMR采用10次迭代。
- 评估协议 :遵循无监督OVS的标准评估协议,不允许在评估前访问目标数据,使用MMSegmentation工具包提供的默认类别名称,所有模型均使用所有类别的平均交并比(mIoU)进行评估,将图像调整为较短边为448,采用步长为224像素的滑动窗口方法。
主要实验结果

表1. 与无监督开放词汇分割(OVS)模型在Pascal VOC [15]、Pascal Context [30]、COCO Stuff [7]、Cityscapes [11]和ADE20K [56, 57]数据集上的对比。对于每种方法,我们指定了所使用的视觉骨干网络,以及该骨干网络是冻结的还是经过微调的。

表2. 考虑背景类别的情况下,与无监督开放词汇分割(OVS)模型在Pascal VOC [15]、Pascal Context [30]和COCO Object [7]数据集上的对比。对于每种方法,均指定了所使用的视觉骨干网络,以及该骨干网络是冻结的还是经过微调的。我们报告了所有方法在其最佳配置下的结果。
将Talk2DINO与以往无监督OVS的最先进方法在5个不含"背景"类别的基准和3个含"背景"类别的基准上进行比较。比较的竞争对手包括基于原型的方法(如ReCo、OVDiff等)、CLIP改编方法(如MaskCLIP、SCLIP等)、在大规模图像-标题对集合上训练的方法(如GroupViT、TCL等)以及旨在结合CLIP和DINO互补特性的方法(如CLIP-DINOiser、ProxyCLIP等)。
在不含背景的五个基准(Pascal VOC、Pascal Context、COCO Stuff、Cityscapes、ADE)上,无论是基础配置还是大型配置,无论是否使用掩码细化技术,Talk2DINO在所有配置上的平均mIoU均最佳,与所考虑的竞争对手相比有持续的改进。在含背景类别的三个基准上,Talk2DINO在所有考虑的配置中均取得最佳或次佳结果,显著优于通过检索过程构建视觉原型的FreeDA方法,表明直接从CLIP文本编码器到DINOv2的投影训练能在无需计算和内存开销的情况下,在两个嵌入空间之间建立更准确的桥梁。
消融实验

表3. 使用不同视觉骨干网络和不同大小的ViT架构的消融实验结果。
- 不同视觉骨干网络的选择:当改变视觉骨干网络和所采用的ViT架构大小时,与DINOv2不同的骨干网络表现不佳,无法通过可学习的映射与CLIP文本编码器对齐。DINO虽然平均性能第二,但Talk2DINO从DINOv2密集特征的强大语义表示及其自注意力头突出图像连贯区域的能力中显著受益,且该方法在不同ViT大小上均表现出一致且高性能,即使使用ViT-Small骨干网络也有良好结果。

表4. 评估所提架构核心组件对最终性能影响的消融实验。我们报告了使用DINOv2基础模型的结果。
- 核心组件的影响:在投影的影响方面,用线性投影替代所提出的投影会导致性能略有下降,但表明DINOv2和CLIP空间本质上是兼容的;而将所提出的投影应用于DINOv2之上或在两个空间上应用两个投影会导致性能显著下降,证实了所提方法的适当性。在自注意力头的选择和聚合策略方面,在Pascal VOC数据集上,标准平均自注意力的嵌入表现出更好的性能,但在所有其他基准上,选择与文本CLS token最相似的注意力头嵌入的方法最有效,进一步验证了选择方法的稳健性。

表5. 对比使用和不使用背景清理程序的消融实验结果。我们报告了使用DINOv2基础模型的结果。
- 背景清理的效果:背景清理机制和PAMR掩码细化对性能有影响,背景清理对仅包含前景类别的Pascal VOC和COCO Object有积极影响,但对包含通常属于图像背景类别的Pascal Context的性能略有降低,且无论是否使用掩码细化,所提出的背景清理程序的有效性均得到证实。
- 其他分析:模型参数分析显示,Talk2DINO的参数数量少于最新竞争对手FreeDA和ProxyCLIP,同时平均mIoU更高,具有更好的性能与参数数量权衡。DINO寄存器的作用分析表明,不使用寄存器时性能下降与自注意力中的伪影存在直接相关,伪影会限制与标题最相似的自注意力头的选择机制,在ViT-L架构中性能差异最大,而ViT-S中无寄存器的骨干在五个基准中的四个上表现更好。训练CLIP最后一层的效果分析显示,解冻CLIP的最后一层会导致更差的结果,表明CLIP提供的文本表示若在不同管道中训练,可能会受到损害并失去部分多模态理解能力。文本token选择策略分析表明,CLIP的全局训练目标可能无法赋予文本token强大的局部属性,CLIP文本token的平均值在训练和推理中作为CLS token的替代方案,虽略优于对齐单个token,但仍不如CLIP token,说明CLIP token封装了用于与DINOv2补丁对齐的最有用且噪声更少的信息。

图4. Talk2DINO与FreeDA 、ProxyCLIP 和CLIP-DINOiser 的定性结果对比。
总结
本文提出了Talk2DINO,这是一种新颖的开放词汇分割方法,它将DINOv2自监督视觉骨干网络的空间详细嵌入与CLIP的高语义文本嵌入相结合。该方法通过一个轻量级的语言到视觉映射层,在无需对骨干网络进行大量微调的情况下,实现了文本概念与视觉补丁之间的细粒度对齐,并利用DINOv2的自注意力图来增强分割过程,包括新颖的背景清理程序,从而生成更自然、噪声更少的分割结果,有效区分前景目标与背景。
实验结果表明,Talk2DINO通过仅学习最少的参数集合,在多个无监督OVS数据集上展示了最先进的性能,凸显了自监督纯视觉编码器能够生成具有类似于文本表示的语义属性的嵌入,为解决CLIP类模型的空间理解限制开辟了新途径。
不过,该方法也存在一定局限性,例如DINOv2中存在的伪影现象会影响自注意力头的选择机制,进而影响模型性能,且在不同大小的ViT架构上,这种影响程度不同;此外,CLIP文本token的局部属性不足,限制了其与DINOv2补丁的对齐效果。未来的研究可针对这些局限性进行改进,进一步提升模型性能。
#扣子开源全家桶
Apache 2.0加持,AI Agent又一次卷到起飞
两个核心开源产品 Github上star 数共达 9.5K。工具已上桌,开发者们,燥起来吧。
终于,另一只靴子也落地了。
7 月 26 日,新一代 AI Agent 开发平台扣子( Coze )宣布开源两款核心产品:零代码开发平台( Coze Studio )和调试工具扣子罗盘( Coze Loop )。
加上已开源的应用开发框架 Eino,扣子四大核心产品已有其三完成开源 ,从开发到运维,一个不落!

扣子产品矩阵包括扣子空间、开发平台、扣子罗盘及 Eino 框架。Eino已于4月开源,红色部分是这次开源的核心产品。

2025 年,AI Agent 迎来爆发,热度直逼今夏高温。在不少人眼中,它俨然成为大模型真正落地的「最佳实践」。而就在这个关键时刻,扣子果断全线开源,沿用高度开放的 Apache 2.0 协议 ------
一边加柴,一边开门迎客,把这把火烧得更旺,也将开源平台的竞争推到了新高度。
目前,这次开源的两个核心产品 GitHub 的 Star 数量迅速攀升,共达 9.5K,成为智能体开发领域最受关注的开源项目之一。

Coze Studio :https://github.com/coze-dev/coze-studio
Coze Loop:https://github.com/coze-dev/coze-loop
Eino:https://github.com/cloudwego/eino
完整工具链开源,零门槛享受商业级能力
扣子开发平台是一款真正意义上的无代码开发平台。最大的亮点就在于------
不会写代码?完全没关系!只要你会用鼠标,分分钟就能捏出一个能跑的智能体,整个过程直观到飞起:
打开网页画布,拖拖拽拽,像搭积木一样拼出智能体的工作流程。
前端界面、后端逻辑全图形化呈现,1---2 小时轻松搞定一个实用的 AI 应用。
拖拖拽拽,像搭积木一样拼出智能体的工作流程
平台的扩展能力也相当强悍:最丰富的插件市场,搭配知识库、数据库等组件,极大拓展了智能体的能力边界。

拥有最丰富的插件市场

各种资源,一应俱全
支持发布平台也最多:一键上架平台商店,支持飞书、抖音、微信等多平台推送,同时提供强大的 API 和 SDK,便于将智能体无缝集成进你的业务系统。
现在,扣子开发平台的核心引擎全面开源------
模型接入、智能体构建到最终发布,覆盖所有开发所需核心模块。
开发者可以自由使用、魔改、分发,打造真正高度定制化的智能体应用。

开源功能清单(中文版)
「一站式可视化开发」,外加源自成熟商业平台,是扣子开发平台区别于众多 AI 开源项目的突出亮点。背靠数万家企业和数百万开发者的用户基础,充分验证了其核心引擎的稳定性与可靠性。
技术栈方面,扣子开发平台同样亮点十足------
后端采用 Golang,前端采用 React + TypeScript,整体架构基于微服务和 DDD(领域驱动设计)。
在开源语境中,性能和效率往往是最先被拷问的指标。Golang 内核像是一块扎实的基石,确保在面对高并发和复杂调用时,系统依然稳定可靠。
更别说 Golang简洁的语法和低门槛的学习曲线,开发者上手快,维护也省心,再加上它在后端、网络和容器化领域的成熟生态,妥妥一套高效稳定的底层解决方案。
在可读性和维护性方面,React + TypeScript 提供了成熟的组件化开发体验与类型安全保障,既适合新手快速上手,也便于老手精细打磨。
在微服务架构上,通过系统拆解为职责清晰、解耦良好的模块,不仅便于开发者理解和维护,也为开源社区的协同开发创造了理想环境------每位开发者都可以专注于某一具体领域,深耕细作,而不必担心「牵一发而动全身」。
在实操层面,平台提供开箱即用的容器化部署方案,大幅简化环境配置流程,让开发者能将更多精力聚焦在智能体本身的构建上。
有了扣子开发平台,捏个智能体,轻轻松松。但当智能体越来越聪明、任务越来越复杂,仅靠简单「搭积木」已经不够用了。真实场景里,难题接踵而至:
哪些 Prompt 微调真的带来了性能提升?哪些看似改了,其实没变?
尤其是对于拥有复杂工作流的 Agent,靠「提问-答复」的黑箱式调试,就像摸着石头过河------既没法回溯过程,更难精准定位问题。
扣子罗盘,正是在这样的需求下诞生。

它是一整套面向智能体的全生命周期管理工具链,以可视化方式,把智能体开发抽象为四大阶段:开发 - 评测 - 观测 - 优化,每一各环节都有明确抓手,帮你从容应对各种不确定性。

给 Prompt 写作量身打造了 IDE + Git + AB 测试三合一神器,让开发更高效,也更靠谱。

从用户提问开始,到 Prompt 是怎么被解析的、用了哪个模型、调用了哪些工具、每一步花了多少时间、有没有出错......全都详细记录下来。开发者不仅能快速找出问题所在,还能识别性能瓶颈、追踪 Token 用量,真正做到有据可查、有错好改。

一个稳定的智能体,不能靠感觉好,要靠数据说话,效果可量化。评测能力,开箱即用。
这次扣子罗盘开源,更是诚意拉满------
包括提示调试、评测体系、Trace 全链路观测、模型接入等能力统统配齐,相当于把成熟平台的硬核能力一次性下放。开发者零门槛就能体验原本专属商业客户的工具链。

开源功能清单(中文版)
例如,Prompt 开发流程一站式打包,从设计、测试到优化全覆盖,无需另起炉灶,拿来即用。
对 Trace 的上报与查询能力,同样是一大亮点。平台支持自动记录每一条 Prompt 调试的 Trace 数据,实时追踪输入输出、执行路径和耗时明细,让原本黑盒般的 AI 推理过程彻底可见。这对于提升开发效率、加速上线流程,意义不言而喻。
更妙的是,多语言 SDK 同步开源,与商业版完全兼容,只需改几个参数,就能把扣子罗盘集成进自己业务系统,二次开发毫无压力。再加上官方文档齐全、开发指南详尽,整体门槛被拉得很低。
Eino 框架的引入也为模型接入带来了极大灵活性,支持 OpenAI 等主流 LLM,切换模型就像换积木,项目扩展性直接拉满。
上手体验也极其友好。Docker 一键部署几行命令搞定,新手也能几分钟内启动完整调试与评估环境。
总结一下:这次扣子双核心产品开源,堪称给开发社区打了一针强心剂。
开发平台主打上手快,罗盘则解决可观测难题,一次打通从构建到优化的全流程。
关键不是象征性开源,而是把经受过大规模实战验证的能力一次性打包开放:模型接入、Prompt 调试、Trace 观测、跨端部署......全栈可用、可复用。
对开发者来说,等于一开局就站在成熟体系上,轻松起步、深度定制两不误。
Apache 2.0 :把未来留给了开发者
智能体大爆发,竞品几乎全部开源,扣子选择在此关键时刻彻底释放自己的技术势能,把「半条命」交给开发社区,其实并不意外------
三款产品已经构建起一套完整、新的 Agent 开发范式。在这个尚未定型的赛道上,若想让这套范式成为行业的事实标准,必须吸引越来越多的开发者和团队围绕它开发应用、贡献插件、打磨生态。而要在有限时间内快速启动这台飞轮,开源几乎是最优解。
选择以宽松著称的 Apache 2.0,足见扣子的「让利」诚意与生态野心:
- 代码随便用、随便改,不强制开源衍生品;
- 专利授权机制清晰,合规无忧;
- 和主流协议兼容性好,方便各种集成、魔改。
讲真,这几乎把开发者所有顾虑都提前解决了------不用付费、还可以闭源商用、不怕版权雷、不担心数据安全和商业秘密。包袱一丢,落地提速自然水到渠成。
这波操作,很容易让人想到当年谷歌打造 Android 的经典操作:底层保留 GPL,上层切 Apache 2.0,向手机厂商亮明态度------你可以深度定制,闭源商用,商业秘密我不碰。最终换来了生态爆发,坐拥全球手机操作系统半壁江山。
而对于中小企业和个体开发者来说,扣子这波开源更像天降助攻。
传统的 AI 开发平台,尤其是那些功能完备、性能优越的商业版本,往往伴随着高昂授权费用------个人开发者和预算紧张的中小企业,几乎望而却步。现在,扣子直接把 Agent 能力开源给你,零门槛入场,一键白嫖商业级工具链。
而且不是「阉割版」,而是真正把商业版中验证过的核心能力------包括提示词调试、即开即用的评测体系、Trace 全链路观测等------原样端上桌。大家一开局就站在成熟体系上,既能少踩坑,又能快速打磨差异化业务。
值得一提的是,许多企业(特别是大型企业和对数据安全、合规性有严格要求的机构)偏好私有化部署其关键业务系统,包括 AI 应用。
而扣子本身处于基础模型与业务场景之间,是连接两端的关键桥梁:它提供了智能体必需的流程编排、数据接入、任务执行等核心能力。现在它开源了,企业可以部署在自己的服务器或私有云上,完全掌控数据和系统,也就消除了「黑箱焦虑」。
可以说,扣子这波开源,是一次力度空前、诚意拉满的「基础设施放权」------真正把未来留给了广大开发者。
智能体时代的「操作系统」
当然,开源绝非单方面付出,而是一场双向的增益游戏。
在闭源阶段,产品演进主要依赖内部节奏和少数客户反馈。开源之后,全球开发者成为产品的「共创合伙人」------修 Bug、提需求、加插件、造模板,一切都能自下而上「涌现」。社区协同力量,会成为加速产品进化的最强引擎。
选择在 2025 年开源,时机也恰到好处。当下,无代码与低代码平台正成为 AI 应用开发的最热战场,扣子这一整套「开源大礼包」,既是拉新利器,也是生态磁场。一旦社区形成规模------
最多插件的工作流平台,是扣子主导的;智能体开发默认参考的接口和设计范式,是扣子定义的;......
当开发者习惯按你的方式做事,游戏的胜负,其实已经写好了一半。那时的扣子,不再只是字节跳动内部的一套开发工具,而是真正成为「智能体时代的公共底座」。
要知道,开源从来不是放弃主导权,而是迈向更高维度的生态博弈。
这一次,扣子可不是「贵在参与」,而是以「范式设定者」姿态入局------ SDK、Studio、插件市场 ...... 「全家桶」一并奉上,毫无保留,直撼现有格局。
一线大厂披挂上阵,无论是国内起步较早的 Dify 还是已打开海外局面的 n8n,也不得不重新审视自身的定位与节奏,一场智能体开发的范式之争如箭在弦,一触即发。
最终,谁的技术规范成为行业共识,谁的接口标准成为开发者默认选项,谁才有资格主导这场最重要的生态重构。
#Core Knowledge Deficits in Multi-Modal Language Models
多模态大模型,真的「懂」世界吗?------揭秘 MLLM 的核心知识缺陷
多模态大模型(MLLM)在高层次视觉理解与推理任务上展现出惊艳能力。然而,如果你仔细观察,就会发现一个的事实:它们在一些看似简单、直观、人类幼儿都能轻松完成的任务中,却频频「翻车」。
比如,「一个玩具被遮住后还在吗?」、「液体倒入不同形状容器后,体积变了吗?」、「两个物体靠近会发生碰撞吗?
这是否意味着 MLLM 的先天认知结构中,缺少那些支撑早期人类学习的基础知识机制?也就是说,它们是否缺乏「core knowledge」(核心认知能力)?
ICML 2025 高分论文(initial score 4443),揭示了 MLLM 的「核心认知盲区」。
来自 UC San Diego 的新研究《Core Knowledge Deficits in Multi-Modal Language Models》(发表于 ICML 2025)对这一问题进行了系统、深入的分析。
论文标题:Core Knowledge Deficits in Multi-Modal Language Models
论文链接:https://arxiv.org/pdf/2410.10855
研究发现:目前主流 MLLM 广泛缺乏核心认知能力,且该能力不能通过模型规模扩展自然习得。
为此,作者构建了一个创新性的多模态测评体系 CoreCognition,并提出一种独特的 「干预测试」 方法 Concept Hacking,旨在揭示模型是否真的 「理解」 任务背后的核心知识,还是只是 「蒙对了答案」。
构建 CoreCognition:
一种跨模态认知评估基准

「核心知识」概念来自发展心理学,尤其是皮亚杰(Piaget)关于人类认知发展的经典理论。研究指出,人类在婴儿期就已经具备一些对世界最基本、最普遍的认知能力,构成我们理解物体、空间、因果、意图等的基础。研究团队受皮亚杰认知发展理论启发,提出 CoreCognition:一个规模庞大、聚焦「核心知识」的多模态测评体系。其亮点在于:
- 覆盖全面:12 项核心认知概念覆盖了从 感知运动期(如边界感、连续性、物体恒存、空间知觉、知觉恒常性、直觉物理)到 混合期(如视角理解、层级关系、守恒理解)再到 形式运算期(如意图识别、机械推理、工具使用)三个阶段。这种分层设计帮助深入剖析模型在不同认知层级上的表现差异。
- 数据丰富,测试广泛:数据集共包含 1503 个图像 - 问题对,并通过 230 款主流多模态模型 × 11 种 prompt 设计,生成 2530 个评估数据点,有效覆盖不同模型规模与指令理解能力。
- 设计严谨:
-
判别性强(Discriminativeness):每一道题目都经过精心设计,使得缺乏目标核心知识的模型必然倾向于选择错误答案,从而有效区分模型能力。
-
混淆最小(Minimal Confounding):问题尽量避免对目标概念以外能力产生依赖,减少与其他核心知识的概念交叉。
-
无文本捷径(Minimal Text Shortcut):所有问题均设计为必须结合图像和语言信息进行多模态推理,防止模型仅通过语言模式识别猜出正确答案。
- 质量把控严格:所有数据由 12 位具备认知科学、计算机科学或统计学背景的高年级本科或研究生协作完成标注与审核,确保标注质量的一致性与学术严谨性。
数据集设计既参考发展心理学与认知科学,又贴近 AI 实验范式,兼顾理论可靠性与工程可行性,是首次正式将「核心知识」搬进大模型测试框架。

四大关键发现
- 模型在基础认知任务中存在明显不足:大模型缺乏基础认知,尤其是最简单的认知能力,在诸如边界感、持续性、空间性等简单、直观的任务中,模型性能远低于对更复杂事物(如层级推理、意图理解等)的理解能力。这些本应是「常识」的内容,模型却无法掌握,说明其缺乏对世界基本结构的理解。

- 模型无法有效利用基础认知支撑高级能力:模型在高层认知上的表现,不一定与低层认知水平直接挂钩。说明模型并未形成稳固的认知体系,模型的高级推理感知并不是建立在基础的认知能力上的。这也能解释为什么模型出现鲁棒性缺陷(即不能持续稳定的正确回答问题)。

- 增加模型规模并不能显著提升基础认知能力:研究显示模型的基础认知能力无法通过简单扩展规模获得显著提升。尽管模型参数量提升带来了高级推理能力的提升,但对低级认知帮助较小,甚至某些基础能力会出现规模越大越差的反常现象。

- Reasoning model 并没有表现出明显优势:System-2 reasoning 也不能有效帮忙模型学习或者推理基础认知能力,这说明模型可能在 pretrain 阶段就缺乏基础认知能力。

Concept Hacking:
干预测试揭示「假理解」陷阱
为了进一步验证模型是否真的掌握核心概念,作者提出了 Concept Hacking(概念干预) 方法:通过构造「对照组」(control)与「干预组」(manipulated),故意在测试图文中反转关键特征,但保持其余条件一致。从而区分「真正理解」与「投机取巧」:
- 若在正常与反转任务中均表现良好,说明模型具备真实的认知能力。
- 若仅在正常任务表现好,但反转任务失败,说明模型在依赖虚假的认知捷径。
- 若在正常任务表现差,则表明模型既没有掌握核心知识,也没有建立认知捷径。

实验证明,很多模型在正常图文任务中表现良好,但一旦关键特征被微调,预测结果大幅崩溃,说明其并非真正理解「核心概念」,而是更加依赖浅显易得的捷径学习。

意义与启示
文章揭示多模态大模型(MLLMs)缺乏核心知识,而且这种知识并不能仅靠规模扩展获得 --- 模型规模越大,越会在复杂任务上「表面优雅」,但更难在基础认知上实现真正理解。这印证了经典的 「Moravec 悖论」:对人类来说最简单的认知任务,对 AI 却最困难。这对当前以规模为主的发展路径构成了根本性挑战,表明其难以通向类似人类的通用智能。
- 认知科学启示:人类以核心认知为基础构建更高级认知,MLLM 却缺乏这种认知搭建的 scaffold 结构。
- 技术发展挑战:简单地增加参数规模、训练数据,并不能自动带来核心认知能力。
- 未来方向指引:或许需要在模型预训练阶段显式注入物理、空间等常识,主动「灌输」这些核心认知能力;探索认知引导训练机制,以引入「显式概念学习」;开发更多高度控制的认知能力评测。
本文作者介绍:
黎羿江,在约翰斯・霍普金斯大学获得数据硕士学位,现在是加州大学圣地亚哥分校一年级博士生,主要研究方向聚焦于人工智能的学习方向,旨在实现高效和鲁棒的学习,并应用于多模态、交互式以及三维xx环境中。
高清滢,于约翰斯・霍普金斯大学获得硕士学位,目前正在该校攻读计算机科学博士学位。她隶属于约翰斯・霍普金斯医学院旗下的 Wilmer 眼科研究所,Lions 视觉研究与康复中心,以及工程与医学人工智能实验室。她的研究兴趣包括视觉 - 语言模型的可解释性和面向低视力人群的自主导航技术。
赵天维,是约翰斯・霍普金斯大学计算机科学硕士研究生。他的研究兴趣包括从认知科学视角评估、理解与增强多模态模型(特别是其推理能力),以及优化多智能体系统中的规划与协同机制。
汪冰洋,在埃默里大学获得了理学硕士、理学学士和工商管理学士学位。她的研究兴趣包括多模态融合以及从混合模态中高效提取信号。
孙浩然,于 2024 年获得约翰斯・霍普金斯大学应用数学硕士学位。其主要研究方向包括医学数据科学以及机器学习在心脏病学中的应用。
罗得之,是密歇根大学温博格认知科学研究院的大四学生。他曾在伦敦大学学院心理与语言科学系访学,并曾任伦敦大学哲学研究所的人工智能学者。他的研究兴趣为认知科学与人工智能的理论基础,尤其关注意识、自我加工与核心认知。
Hokin Deng ,是卡内基梅隆大学的访问研究科学家。他曾在哈佛大学担任计算机视觉工程师,设计了首套用于单细胞认知实验的实验基础设施。在此之前,他是约翰霍普金斯医院的神经工程师,并在 Meta Reality Labs 担任附属研究科学家。他共同领导了开源项目 「像孩子一样培养人工智能(GrowAI)」,并联合组织了多场聚焦计算机科学、神经科学与哲学交叉领域的研讨会。此前,他曾在约翰霍普金斯大学学习神经科学与哲学。
#硬核「吵」了30分钟
这场大模型圆桌,把AI行业的分歧说透了
什么?2025 年世界人工智能大会(WAIC)第二天,几位行业大佬「吵」起来了。
是的,你没听错!他们「吵架」的热度,堪比盛夏的天气,直逼 40 度高温。
事情的起因是在一场圆桌论坛上,刚聊到模型训练范式,大家就展开了尖峰辩论。
但这场关于训练范式的思想碰撞,很快转移到了模型架构、训练数据、开闭源等尖锐的问题上。每个问题都深入大模型发展的核心要害。
最直观的感受:「这是 AI 行业顶流的公开 battle,我愿称之为今年最硬核『吵架』现场。」台上嘉宾你来我往,台下观众掌声不断。
而这场圆桌论坛,是由商汤科技承办的 WAIC 2025 大模型论坛的「模型之问」圆桌 ------ 探讨的是「大模型技术演进与发展之路」。
圆桌主持人由商汤科技联合创始人、执行董事、首席科学家林达华担任主持。嘉宾阵容堪称当前大模型生态的多路代表:包括阶跃星辰首席科学家张祥雨,上海人工智能实验室青年领军科学家、书生大模型负责人陈恺,北京智谱华章科技股份有限公司总裁王绍兰,范式集团联合创始人、首席科学官陈雨强,英伟达全球开发者生态副总裁 Neil Trevett。
可以说这场论坛汇聚了来自基础模型研发、行业落地应用、算力平台等多个关键环节的代表性力量,是一次不同路径、不同视角的深入对话。
在这场 30 分钟的对话中,每一位嘉宾发言的背后,既是对技术路线的选择,也关乎产业未来的走向,值得每一个人深思。

一开场,林达华表示:「大模型技术发展到今天,可以说是在繁花似锦的背后,我们也进入到了一个十字路口。过去大半年的时间里,大模型的技术格局经历了一个重要的范式转变。从最初以预训练为主、监督学习为辅的模式 ------ 这一范式由 OpenAI 所开创 ------ 逐渐向注重推理能力提升的强化学习范式过渡。这个转变标志着 AI 领域在技术上的进一步演化。」
随着这个观点的抛出,这场围绕大模型的圆桌论坛正式拉开帷幕。
预训练与强化学习

在大模型爆发初期,基本是以预训练为主,比如 OpenAI 发布 GPT-4o 时,当时所有的计算资源都投入在预训练上。很多人认为如果预训练不足,模型能力上限将被锁死。
随着 o1 的发布,OpenAI 提出在预训练好的模型上,用强化学习做后训练(PostTraining),能显著提高模型推理能力。如下图左边显示随着训练时间的增加,模型性能随之提升。这种走势是每个训练 AI 模型的人都熟悉的。
右边表明在「测试时间」增加时,模型的表现也会得到改善。这一发现代表了一个全新的扩展维度 ------ 不仅仅是训练时间扩展,还包括测试时间扩展,用到的训练方法主要是强化学习。

o1 的技术博客中展示了一张图表:准确度和测试时计算之间存在对数线性关系,o1 的性能随着训练时间和测试时的计算而平稳提高
在 OpenAI 看来,未来强化学习计算可能会成为主导。

从 GPT-4o 到 o1 范式的转变,不禁让我们思考,原本由 OpenAI 所开创的以预训练为主、监督学习为辅的范式,现在逐渐转向了更加注重推理能力提升的强化学习范式。此外,OpenAI 前首席科学家伊利亚也提出了类似观点,预训练时代即将终结。
随着推理模型的崛起,强化学习越来越得到大家重视。因此一个值得深思的问题被提出,预训练和强化学习我们应该怎么平衡?
张祥雨首先肯定了这套范式的合理性(从预训练到监督微调再到 RL)。对于预训练而言,本质就是压缩语料的一个过程,之后在模型内部形成一个更加紧凑的表示。这个表示对模型学习世界知识和建模非常有帮助。
但与此同时,预训练通常基于 Next Token 预测,这其实是一种行为克隆的形式。而行为克隆传统上被认为存在一些难以规避的问题 ------ 比如无论你用了多少数据、模型做得多大,它都很难真正建立起目标导向的推理能力。
因为压缩只是尽可能复现已有内容,而推理本质上是要求模型能找到一条逻辑自洽、通向目标的因果链。因此,RL 应运而生。
张祥雨还指出了未来这条范式的发展方向,他认为如何进一步扩展 RL,使其能够接受自然语言反馈,而不仅仅是像数学、代码这种确定性反馈很关键。
在张祥雨的分享中,我们捕捉到了一个非常重要且值得深思的技术范式拓展,那就是将强化学习进一步延伸到大规模预训练。特别是在推理阶段(即 Test Time)使用强化学习来增强推理性能,这确实是一个非常具有启发性的建议。
陈恺则强调了预训练的重要性。他表示,强化学习之所以能够大放异彩,是因为它依赖于一个强大的冷启动模型。过去,冷启动模型可能依赖于预训练和监督学习(SFT),但现在大家对预训练的重视程度逐渐提高。预训练为强化学习提供了一个良好的基础,使其能够探索多种未来的可能性,从而发挥其应有的作用。
陈恺进一步讨论了强化学习未来面临的挑战,即奖励或反馈机制的问题。这个问题将成为强化学习进一步拓展到更多任务时的一个关键挑战。目前,强化学习主要用于解决一些有明确答案的任务,比如填空和问答题,但实际上,许多有效且有价值的任务并没有唯一确定的答案(这和张祥雨的观点类似)。因此,强化学习需要探索新的奖励和反馈机制,这可能依赖于新的评价标准,或者通过与环境的实际交互反馈来形成奖励体系。
此外,陈恺还表示强化学习也给基础设施带来了新的挑战。尽管强化学习已经取得了一些进展,但从效率上来看,仍然存在较大的提升空间。强化学习需要大量算力,且模型需要不断进行探索和学习。如果未来强化学习开始依赖更多的交互反馈,这对基础设施的要求将会更高,对相关技术和资源的挑战也将更加严峻。
Transformer 架构与非 Transformer 架构

在整个模型研发过程中,训练范式是非常重要的一部分,而训练范式又依托于高效的模型架构。
从 2017 年至今,Transformer 统治 AI 领域已经八年之久。如果从 2019 年的 GPT-2 出发,回顾至 2024--2025 年的 ChatGPT、 DeepSeek-V3 、LLaMA 4 等主流模型,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构基本保持高度一致。
然而,随着模型参数飙升至千亿级、上下文窗口拉伸至百万 Token,Transformer 的一些限制开始显现。 比如,其最大的问题是自注意力机制的 O (n^2) 扩展性,当序列长度 n 增加时,计算量和内存占用呈平方级增长。其次,注意力机制需要存储大量中间结果和 KV 缓存,显存很快被占满;第三,Transformer 缺乏显式的长期记忆机制,导致在需要多步推理或跨文档对齐的任务上,小样本泛化能力急剧下降。
对此,业界和学界开始新的探索,他们主要沿着两条技术路线展开。
一是优化现有 Transformer 架构,例如,位置编码从最初的绝对位置发展为旋转位置编码(RoPE);注意力机制也从标准的多头注意力逐步过渡为更高效的分组查询注意力(Grouped-Query Attention),另外在激活函数方面,GELU 被更高效的 SwiGLU 所取代。
另一条则是跳出 Transformer,探索全新架构范式。如 Mamba 系列通过状态空间模型(SSM)实现线性复杂度的长序列建模,展现出比 Transformer 更优的延迟性能与可控推理能力;RetNet、RWKV 等结构则融合了 RNN 的记忆优势与 Transformer 的并行性,力图找到效率与能力的最优平衡点。
值得注意的是,当前的大模型架构发展也呈现出混合设计趋势,如由 AI21 Labs 推出的 Jamba 就是混合架构典型,其结合了经典的 Transformer 模块和 Mamba 模块。
年初发布的 DeepSeek V3 表明,即使是优化现有 Transformer 架构,也可以大幅度降低模型训练和推理成本。这就带来一个值得深思的问题:我们是基于 Transformer 架构进行创新?还是开发非 Transformer 架构?
对于这一问题,张祥雨表示,模型架构并不是最重要的决定因素,架构是为系统和算法服务的。Transformer 架构没有问题。现在流传下来的仍然是最经典的 Transformer 架构。
但现在的问题是,算法开始向 RL 迁移,而我们的应用场景也从推理时代向智能体时代转变。而智能体最重要的特性是自主性,它必须能够主动与环境交互,并从环境中进行学习。
这就意味着,我们的模型架构需要具备类似人类的能力,能够建模一种无限流或无限上下文的能力。因此,张祥雨认为,(在智能体时代)传统模式已经遇到了阻碍,像是传统的 RNN 架构,未来短时间内可能会重新成为下一代主流架构的设计考虑之一。
真实数据与合成数据之争

但我们不可忽视的是,大模型的背后,还有数据。过去,AlexNet 及其后续工作解锁了 ImageNet,Transformer 的兴起解锁了海量的互联网数据。然而今天,我们正面临一个残酷现实:高质量语料正在趋于枯竭。随着已被爬取的内容越来越多,边际新增的优质数据正在减少。
有研究预计,如果 LLM 保持现在的发展势头,预计在 2028 年左右,已有的数据储量将被全部利用完。届时,基于大数据的大模型的发展将可能放缓甚至陷入停滞。与此同时,拥有版权、隐私等限制的数据,更是加剧了垂直领域的发展。

图源:来自论文《Will we run out of data? Limits of LLM scaling based on human-generated data》
在此背景下,合成数据被寄予厚望,国内外很多公司开始采用这种方式。比如 Anthropic 首席执行官 Dario Amodei 曾经表示,对于高质量数据耗尽的困境,Anthropic 正在尝试模型合成数据的方法,也就是使用模型生成更多已有类型的数据。这一策略也在 OpenAI、Meta、Google DeepMind 等公司的新一代模型训练中被广泛应用。
然而,合成数据在一定程度上缓解了数据难题,但它本身也引发了一系列新的挑战与隐忧。2024 年登上《自然》封面的一项研究认为如果放任大模型用生成的数据进行训练,AI 可能会崩溃,在短短几代内将原始内容迭代成无法挽回的胡言乱语。
一边是高质量数据资源日渐枯竭,另一边则是对合成数据的高度依赖与不确定性并存。
这种担忧,也发生在英伟达内部。Neil Trevett 表示,英伟达在图形生成和物理仿真方面也面临数据困扰的问题,尤其是那些无法获取、获取成本高、涉及伦理风险或隐私问题的数据。
圆桌现场,Neil Trevett 给出了英伟达的一个解决思路,利用物理仿真生成模拟场景,用来训练大模型。这种方式尤其适用于构造一些在真实世界中难以采集的边缘案例,比如交通事故场景,或者机器人遇到异常情况时的应对。
不过,Neil Trevett 也强调:不能完全依赖合成数据。用于合成数据的生成模型本身可能存在偏差、误差或盲区,因此需要建立真实世界的验证机制和反馈闭环,比如通过 human-in-the-loop 的方式,来辅助验证训练效果是否真实可用。Neil Trevett 还给出了几个非常有前景的技术路径,包括自监督学习、主动学习、混合式训练流程等。
王绍兰则给出了不一样的观点,他认为对于预训练而言,大家常提到的互联网数据耗尽,其实是一个量的问题,可能更关键的是质的问题。也就是说,当初大模型所依赖的大量互联网数据,它们的质量是否真的足够好?这需要重新审视。接下来应该是进一步提升预训练数据中的质量。
王绍兰还提到所谓数据耗尽并不像大家说的那样夸张,原因是行业数据还沉淀在行业中,没有被用来训练模型。因此大模型想要落地到行业中去,必须用行业数据进行预训练。
关于合成数据问题,王绍兰认为随着大模型场景的不断扩展,一些场景数据是极其稀缺的,甚至是完全不存在的。因此,只能依赖合成数据和仿真环境来补足。
然而,这种做法会带来一系列挑战,如果仿真不够真实,那么生成的数据也会存在偏差,最终会影响模型训练效果。因此,我们不能把合成数据看作一个万能钥匙,它有价值,但不能解决一切问题,背后仍有大量工程上的挑战需要克服。
最后,王绍兰还建议:对于行业中非敏感、非涉密的关键数据,应当考虑在行业内部建立数据共享机制或联盟组织,共同挖掘、整理这些数据,为大模型在各类实际场景中的应用提供更可靠的「弹药库」。这一建议一发出,现场掌声不断。
基础模型与 Agent 向左向右
从来不是一道单选题

进入到 2025 年,我们可以观察到一个很明显的趋势,基础模型的研发速度逐渐放缓,而以 Agent 为代表的应用成为了爆点。国内外厂商陆续推出了自动化执行任务的 Agent 产品,比如 OpenAI 推出的 Operator、深度研究以及 ChatGPT agent、智谱 AI 推出的 AutoGLM 沉思等。
这正是随着大模型进入到应用深水区以来,行业内加速构建商业闭环并着眼产业落地的真实写照。同时,对于一些以 AGI 为终极目标的厂商来说,基础模型的研发同样不会停滞。如何平衡基础模型投入与应用落地之间的关系,成为厂商在战略决策层面的核心议题。
智谱在持续迭代基座大模型 GLM 系列,覆盖语言模型、多模态模型等的同时,也积极推动大模型在各行各业的落地。面对这种双轨布局是否太分散精力的疑问,王绍兰表示两者并不冲突。
一方面,基础模型仍处于快速演进的阶段,行业普遍对当前模型成果感到振奋,但距离 AGI 的目标仍有较大差距。如果类比自动驾驶的分级,当前大模型大致处于 L3 阶段,仅完成了预训练、对齐与基础推理,并刚刚进入到了具备反思与沉思能力的深度推理阶段。未来仍需要继续进化,即使是 OpenAI 即将发布的 GPT-5,与 AGI 仍有距离。他认为,包括智谱在内,对基础模型的探索将持续下去。
另一方面,王绍兰也强调,模型的价值不应只停留在纯理论研究层面。如果不展开模型的商业化落地,它们的价值就无从体现。大模型要「用起来」,直至变成生产力革命的那一天。如今,大模型正通过 Agent 等形态拓展自身应用。同时在落地的过程中,各行各业的领军企业和生态伙伴也要具备大模型思维,积极拥抱这场范式变革。
同样地,第四范式在大模型落地方面也走在了行业前列,尤其是将 AI 技术应用于金融等重点行业。对于如何平衡基础模型的持续研发与行业应用落地,陈雨强首先指出在技术发展极为迅速的当下,要保证自身在行业中的竞争力,其中最关键的是要用好已有的开源或闭源模型。
接着,陈雨强谈到了基础模型能力以及引发的数据问题。当前,已经有超过 30% 的流量来自模型输出而非传统搜索引擎,这也导致面临人为破坏数据等风险。此外,用于评估大模型的工具(如 Arena)虽有价值,但也存在局限。很多普通用户不关心答案是否真的正确,而是像不像好答案,这就导致排版精美的算法在输出结果时得分更高,进一步加剧数据偏差问题。
最后,他提到,在企业落地中,尤其涉及金融等高敏感领域,仍存在诸多挑战。比如在反欺诈场景,基础大模型难以直接处理像每天十亿用户交易记录这样的大规模数据输入。这意味着,大模型的落地要在基础模型能力、数据质量等多个层面持续进行技术突破。
开源模型即使非最强
也能鞭策整个行业进步

除了训练范式、架构的持续进化以及解决数据瓶颈之外,开源与闭源同样影响着大模型技术路径的选择、产业生态的构建以及人工智能的格局。
一直以来,AI 领域便存在着开源与闭源两大阵营。在国内外头部大模型厂商中,OpenAI 在 GPT-3 之后就完全转向了闭源,而以 LLaMA、DeepSeek、Qwen、Kimi 等为代表的开源模型阵营,正不断逼近甚至部分超越闭源大模型的性能表现。
其中,DeepSeek 的开源模型凭借其优异的性能和极低的部署成本,迅速在全球范围内获得了广泛关注和应用,甚至对以英伟达 GPU 和闭源模型为主导的传统 AI 产业链构成了冲击。可以预见,开源与闭源将在未来的 AI 生态中持续展开博弈。
陈恺从自己多年来的开源领域经验出发,探讨了开源如何在大模型时代产生深远影响。就在昨天,他所在的上海人工智能实验室开源了「书生」科学多模态大模型 Intern-S1,并基于此打造了「书生」科学发现平台 Intern-Discovery。
在他看来,一方面,开源不仅重塑行业内不同玩家之间的分工与资源投入方式,还推动了资源的更合理配置。另一方面,尽管开源模型未必是性能最强的,但它能够有效避免重复投入,促使厂商专注于真正需要解决的问题。
更重要的是,对于行业内仍在训练基础模型并以 AGI 为终极目标的玩家来说,开源无疑形成一种实质性压力:如果闭源模型比不过开源成果,其存在价值可能就会受到质疑。因此,开源不一定总能做到最好,却能鞭策整个行业以更高效的方式持续演进。
而作为全球领先的芯片供应商,英伟达高度重视并持续支持全球 AI 生态的发展,并投入很多。特别在开源方面,英伟达为开源大模型训练与部署提供了算力引擎,通过强大的芯片、好用的工具让模型易用性更强。
Neil Trevett 表示,开源的力量毋庸置疑,如其他技术领域一样,开源是推动 AI 行业前进的强大「工具」。然而,开源是否适合每家公司,需要他们根据自身成本效益和竞争策略来判断,比如开源是否能节省成本、是否会削弱自身竞争优势等。因此,他认为,未来行业可能会走向开源与闭源结合的混合模式。
同时,开源也带来了一些新挑战,比如模型分叉、碎片化和滥用,需要行业共同探索治理方式。Neil Trevett 坚信,随着行业的发展,这些都会逐步得到解决。
至此,这场圆桌论坛画上了圆满的句号。从训练范式到架构演进,从数据焦虑到开源闭源之争,再到 Agent 落地与行业融合,这场由商汤承办的「模型之问」圆桌论坛,展现了大模型时代最真实的技术分歧,也汇聚了业界最权威的思考。
这场硬核辩论,或许正是 AI 行业走向成熟的重要一步。
#UV-CoT
无监督视觉推理新突破,偏好优化重塑图像级思维链
本文第一作者是来自南洋理工大学的博士生赵克森,主要研究方向为 Reinforcement Learning in MLLMs. 该论文已被 ICCV 2025 录用。
随着文本领域中思维链(Chain-of-Thought,CoT)推理机制的成功应用,研究者开始将该方法引入视觉理解任务,以提升模型的推理能力和可解释性。
然而,现有模型局限于文本级别的思维链推理,且处理图像的粒度固定,难以根据语义线索动态关注图像中的关键区域。针对上述问题,本文提出 UV-CoT(Unsupervised Visual Chain-of-Thought),一种无监督视觉思维链推理新框架。
该方法以「关键区域→推理过程」的人类视觉理解方式为参考(如下图所示),设计了无监督的数据生成与偏好优化机制,动态聚焦关键区域,实现细粒度推理,显著提升了模型的空间感知与图文推理能力。

论文标题:Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization
论文链接:https://arxiv.org/abs/2504.18397
项目地址:https://kesenzhao.github.io/my_project/projects/UV-CoT.html
代码仓库:https://github.com/kesenzhao/UV-CoT
开源模型: https://huggingface.co/papers/2504.18397
背景:有监督训练
需要高昂的人工成本
现有方法采用有监督微调(Supervised Fine-Tuning, SFT)策略训练模型,使用大量有标签的思维链推理数据,由人工标注关键区域及其推理过程。这类方法面临以下挑战:
(1)人工标注成本高,扩展性差:标注关键图像区域和推理路径需要耗费大量人力和时间,尤其在复杂视觉语义理解任务中,难以适应多任务或大规模场景。
(2)训练信号单一,泛化能力有限: SFT 仅利用人工标注的「正样本」(正确区域及回答),忽略其他潜在合理或不合理的区域与推理路径,导致模型在未知场景下的泛化能力不足。
UV-CoT 设计了一套自动化的偏好数据生成与评估流程,结合改进的偏好优化算法 Score-DPO(sDPO),在不依赖人工标注的前提下,通过偏好评分排序引导模型实现无监督图像级思维链学习(如下图所示)。

贡献一:无监督偏好数据生成与评估
UV-CoT 利用目标模型

和评估模型

,为图像 - 问题对生成多样化的中间推理响应,并通过偏好评分构建偏好数据集。主要步骤如算法 1 所述:
- 响应生成:在每个推理时间步 t,使用目标模型

- 通过随机种子生成 n 个多样化的响应(包括边界框和中间推理结果)。
- 响应评估:评估模型

- 综合考虑所选区域的得分

- 及对后续回答的影响

- 。

- 偏好对构建:从响应中随机选择 k 个偏好对(偏好和非偏好思维链),形成偏好数据集。
- 响应选择:保留最高评分的响应链,用于下一时间步的推理。通过动态生成偏好数据,UV-CoT 减少了对高质量标注数据的依赖,能够在无监督数据条件下实现图像级思维链推理。

贡献二: sDPO 与迭代学习
UV-CoT 使用改进的直接偏好优化(DPO)算法 sDPO,通过引入偏好分数差异优化图像级思维链推理,并采用迭代学习策略动态适应模型输出分布。
sDPO 损失函数如下:

相比标准 DPO,sDPO 通过

引入偏好分数的差异,量化偏好和非偏好响应之间的强度,提升对关键图像区域的影响建模。
迭代学习 (如算法 2):将数据集分为 m 个子集,迭代 m 次,每次使用当前模型

生成偏好数据 D_i,并用 sDPO 优化得到下一模型

。 通过动态更新偏好数据,缓解训练数据与模型生成分布的差异,增强训练鲁棒性。

实验亮点
显著性能提升(表 1):在六大基准上,优于有监督的思维链模型 Visual-CoT-7B,远超目标模型 LLaVA-1.5-7B 和其他无思维链模型。
泛化能力强,易于拓展(表 2):在零样本设置下,UV-CoT 平均提升 2.5%,添加额外无标注数据后,平均提升达 5.1%。
胜任高分辨率场景(表 3):在 V* Bench 上,UV-CoT 平均得分 0.402,平均提升 5.5%,尤其在 OCR 任务中提升 8.4%。



不依赖评估模型,边界框生成质量高(表 5):UV-CoT 通过自评估(目标模型作为评估器)表现仍远超目标模型 LLaVA-1.5-7B(+4.8%),接近 12B 模型 OmniLMM-12B(-0.2%)。将 UV-CoT 生成的边界框应用于 OmniLMM-12B 和 LLaVA-1.5-7B 辅助推理,性能分别提升 7.3% 和 4.7%。

偏好数据与思维链推理可视化:


结语
UV-CoT 提出了一种创新的无监督视觉思维链推理框架,通过自动化的数据生成与对比评估机制,成功摆脱了对人工标注的依赖,实现了关键图像区域的自动识别与推理优化。该方法为高效、可扩展的多模态推理提供了新思路,为未来无监督视觉理解研究奠定了坚实基础。