Qwen3-VL-Seg 深度解读：当多模态大模型学会“像素级精准手术“

论文: Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding

arXiv: 2605.07141v1

机构: 阿里巴巴通义实验室 (Tongyi Lab)

发布时间: 2026年5月8日

一、开篇：从"画框"到"描边"的鸿沟

想象一下这样的场景：你对 AI 说"请把图片里那个穿着米色帽子、背着蓝色背包的人分割出来"。现有的多模态大模型（MLLM）能精准地画出一个边界框告诉你"人在这儿"，但当你需要像素级的精确轮廓------比如做图像编辑、机器人抓取、医学影像分析时------那个粗糙的矩形框完全不够用。

这就是 Open-World Referring Segmentation（开放世界指代分割） 要解决的问题：将不受约束的自然语言描述 grounding 到精确的像素级区域。

过去的方法走两条极端路线：

SAM 外挂派（LISA、GSVA）：MLLM 出框，SAM 出 mask。效果好，但 SAM 带来巨大参数开销和部署复杂度。
原生轻量派（Text4Seg、UFO）：直接在 MLLM 上加轻量分割头，但边界恢复能力差，"切不准"。

Qwen3-VL-Seg 的核心洞察 ：MLLM 预测的边界框不是终点，而是一个语义 grounded 的结构先验 。与其把框扔掉再让 SAM 重猜，不如让框全程引导 mask 解码过程。基于此，作者设计了一个仅 17M 参数（占基础模型 0.4%）的轻量级 Box-Guided Mask Decoder，在 4B 参数规模上实现了超越 8B 模型的分割精度，且无需任何外部分割模型。

二、论文摘要翻译

开放世界指代分割要求将不受约束的语言表达锚定到精确的像素级区域。现有的多模态大语言模型（MLLM）展现出强大的开放世界视觉定位能力，但其输出仍局限于稀疏的边界框坐标，不足以支持密集视觉预测。近期基于MLLM的分割方法要么直接预测稀疏轮廓坐标（难以重建连续物体边界），要么依赖Segment Anything Model（SAM）等外部分割基础模型，引入了显著的架构和部署开销。本文提出 Qwen3-VL-Seg，一个参数高效的框架，将MLLM预测的边界框视为语义锚定的 结构先验，并将其解码为像素级指代分割。其核心是一个轻量级的边界框引导的掩码解码器 ，结合多尺度空间特征注入、空间-语义查询构建、边界框引导的 高分辨率像素融合，以及迭代式掩码感知查询精炼，仅引入17M参数（约占基础模型的0.4%）。为支持可扩展的开放世界训练，构建了 SA1B-ORS------一个衍生自SA-1B的数据集，包含两个子集：SA1B-CoRS（类别导向样本）和SA1B-DeRS（描述性实例级样本）。为评估模型，我们策划了 ORS-Bench，一个经人工筛选的基准，包含分布内（ID）和分布外（OOD）子集，覆盖多种指代表达类型。大量实验表明，Qwen3-VL-Seg在封闭集和开放世界设定下均表现强劲，在语言密集型指令上优势显著，且具有强大的分布外泛化能力。通用多模态基准评估进一步表明，模型在面向分割的适配后仍广泛保持了通用多模态能力。

三、核心原理：Box 不是终点，而是先验

传统思路把 MLLM 的 box 输出当作"副产品"------模型既然要分割，那 box 就顺手预测一下。但 Qwen3-VL-Seg 反其道而行：Box 是 MLLM 对"目标在哪里"的最强语义-空间耦合表达，它同时携带了：

语义信息：框内的内容与语言描述对齐
空间信息：目标的位置、尺度、长宽比
实例身份：在复杂场景中区分不同实例

因此，作者提出边界框引导的掩码解码器**（Box-Guided Mask Decoding）** 范式：让边界框作为结构先验，贯穿 mask 解码的全过程------从查询构建、像素融合到迭代精炼。这相当于告诉解码器："目标大概在这个区域，语义上是'那个人'，请在这个约束下精细描边。"

四、架构深潜：四大模块的精密协作

整体架构如原文图1所示：

输入侧：图像经视觉编码器 Vision Encoder 提取多尺度视觉特征，文本经 Tokenizer 进入带 LoRA 微调的 Qwen3 语言稠密/专家解码器Qwen3 LM Dense/MoE Decoder。MLLM 输出四类信号：

解码侧：轻量级掩码解码器 Mask Decoder（仅 17M 参数）接收上述信号，执行粗到精的分割。

Decoder 的详细结构见图2，包含四个核心组件，下面逐一展开。

4.1 多尺度空间特征注入（Multi-scale Spatial Feature Injection）

这里 GELU 是高斯误差线性单元 Gaussian Error Linear Unit 激活函数，一种平滑的非线性激活，相比 ReLU 在负数区域仍有梯度，有助于稳定深层网络训练。DWConv 表示 Depthwise Convolution（深度可分离卷积），即对每个输入通道单独做空间卷积而不混合通道信息，计算量远低于标准卷积。GroupNorm 是 Group Normalization（组归一化），将通道分成若干组后在组内做归一化，对 batch 大小不敏感，适合小批量训练场景。s 是一个可学习的标量参数，初始值设为 10^−3，这个接近零的初始化使得适配器在微调初期近似于恒等映射，从而稳定优化过程，避免初始阶段对预训练特征的剧烈破坏。

最终的记忆特征由三部分相加得到：

4.2 空间-语义查询构建（Spatial-Semantic Query Construction）

目标查询 Object query 需要同时捕获目标的语义信息和实例级的空间身份。作者利用定位边界框作为显式的条件信号来构建查询。

设 MLLM 预测的边界框为：

初始对象查询由边界框编码和分割 token 特征融合得到：

最终，查询不再是仅依赖语言来"检索"目标，而是从一个已经 grounded 的空间先验出发，极大降低了在复杂场景中定位目标的难度。

4.3 Box 引导的高分辨率像素融合（Box-Guided High-Resolution Pixel Fusion）

为恢复精细的边界细节，模型从原始输入图像提取浅层卷积神经网络特征：

其中 I 表示输入图像，Stem 是轻量级的卷积主干网络，通常由几个卷积层和池化层组成，用于提取高分辨率但语义较浅的图像特征，这些特征保留了丰富的边缘和纹理信息。

其中 (x,y) 是特征图上的空间坐标。σ(⋅) 是 sigmoid 函数，将输入值压缩到 (0,1) 区间。α=20 控制门控边界的陡峭程度，值越大门控越接近硬阈值（类似阶跃函数），值越小过渡越平滑。四个 sigmoid 项分别控制左、右、上、下四个方向的衰减：当像素位于扩展框内部时，四个项都接近 1，门控值接近 1；当像素位于框外时，至少有一个项接近 0，门控值被抑制。若存在多个边界框，则取各框门控的空间最大值。

同时，融合后的视觉特征经两阶段 PixelShuffle 模块逐步上采样：

Upsample 表示上采样操作，PixelShuffle 是一种亚像素卷积上采样方法，通过将通道维度的像素重新排列到空间维度来实现高效上采样，避免传统插值带来的模糊。

最后将门控后的浅层特征与上采样视觉特征融合：

第一遍预测后，模型利用初始 mask 对像素特征进行目标感知池化，提取精炼信号：

池化特征经投影后加回解码查询：

精炼后的查询用于第二遍 mask 预测：

这种"预测-反馈-再预测"的迭代循环，建立了查询预测与像素证据之间的显式交互，使模型能够修正初始 mask 的粗糙边界，逐步锐化物体轮廓。其工作方式类似于人类先圈出大致范围，再基于第一次描边的结果进行精细修正。

五、数据引擎：SA1B-ORS 与 ORS-Bench

好模型需要好数据。开放世界指代分割的最大瓶颈是缺乏大规模、多样化、语言-像素对齐的训练数据。

5.1 SA1B-ORS 训练集

从 SA-1B 的 200 万张原始图像中，作者构建了两个互补子集，总计 299 万样本：

子集	样本数	特点	构建流程
SA1B-CoRS	105万	类别导向，一个表达可指代同类多个实例	实例蒸馏 → 粗 mask 获取（Qwen3-VL-Plus + SAM2）→ 细 mask 合并 → MLLM 验证 → 指代标题生成
SA1B-DeRS	194万	描述性实例级，需属性/关系/上下文区分	指令策划（五维度：类别、属性、状态、相对位置、上下文关系）→ 认知验证（IoU>0.8 过滤）→ 显著性选择

图3 展示了两个子集的视觉对比，图4 和图5 分别展示了 CoRS 和 DeRS 的构建流程。

图6的统计分析显示，SA1B-ORS 在类别数量和样本规模上远超 RefCOCO 系列和 LVIS，且描述性指令占 64.8%，词云显示大量空间介词（in, above, left）和属性形容词（blue, dark, visible），确保数据集的开放世界特性。

5.2 ORS-Bench 评测基准

现有基准（RefCOCO 等）词汇封闭，无法评估真正的开放世界能力。作者构建：

ORS-ID-Bench（分布内）：9,055 人工筛选样本，覆盖 4 种指令格式（单实例类别、多实例类别、短语级、描述性）
ORS-OOD-Bench（分布外）：6 种分布偏移维度，每维约 200 个挑战性样本
- 类别偏移（Category）
- 实例尺度（Instance Scale）
- 指令复杂度（Instruction Complexity）
- 遮挡（Occlusion）
- 光照（Lighting）
- 风险敏感场景（Domain Risk，如自动驾驶、医学诊断）

六、实验条件与训练策略

6.1 两阶段训练

阶段	目标	训练设置	数据配比
Stage 1	建立指代分割能力	LLM 用 LoRA，视觉编码器 Vision Encoder 和掩码解码器 Mask Decoder 全可调	RefCOCO 系列 + SA1B-ORS
Stage 2	恢复通用能力，保持分割性能	合并 Stage 1 LoRA 权重，大语言模型骨干 LLM backbone 和掩码解码器 Mask Decoder 全微调，视觉编码器Vision Encoder 冻结	指代分割 : 通用多模态理解 : 多模态推理 = 3:1:2

Stage 2 中，推理数据通过 Qwen3-VL-Instruct 进行**离线蒸馏（off-policy distillation）**生成 STEM 聚焦数据。这种设计确保模型不会变成"只会分割的偏科生"。

6.2 评测指标

分割任务：mIoU（每样本平均 IoU）、cIoU（全局 IoU）、P@t（mask IoU 超过阈值 t∈{0.5,0.7,0.9} 的样本比例）
定位任务（REC）：Prec@0.5（预测框与 GT IoU > 0.5 的比例）
多实例设置：匈牙利算法匹配预测与 GT mask 后计算指标

七、实验结果：硬核数据说话

7.1 封闭集指代分割（RES）

表1报告了 RefCOCO（+/g ）上的 cIoU：

关键发现：

Qwen3-VL-Seg-4B 在 6/8 个评测 split 上取得最佳，且是唯一在 4B 规模超越 8B 模型（UFO-8B、Text4Seg-8B）的方法
相比 SAM-based 的 LISA，在 RefCOCO Val 上提升 7.4 分 ，RefCOCO+ TestB 提升 12.7 分
SAM3 作为纯分割基础模型，在指代表达分割上反而不如 MLLM-native 方法，说明语言理解对分割质量至关重要

7.2 视觉定位（REC）

表2显示，Qwen3-VL-Seg 在 REC 任务上同样强劲：

值得注意的是，Qwen3-VL-Seg相比 backbone Qwen3-VL，分割任务的训练让定位精度也提升了------例如 RefCOCO Val 从 90.7% → 92.7%，RefCOCO+ TestB 从 75.6% → 82.2%（+6.6% ）。这说明像素级监督能反向精炼 MLLM 的空间感知能力。

7.3 开放世界指代分割

表3是本文最核心的实验，在 ORS-ID-Bench 上测试：

碾压级表现：

7/8 指标最佳，仅在多实例 cIoU 上略低于 SAM3（-1.4）
语言密集型场景 优势巨大：短语指令 cIoU 超越最佳基线 +19.0 ，描述性指令 cIoU 超越 +15.5
通用 MLLM（Gemini、Seed）在简单类别指令上尚可，一旦遇到复杂描述（如"从底部数第二个瓶子"）性能断崖式下跌
SAM3 在类别指令上很强（靠视觉先验），但语言理解不足导致描述性指令上差距巨大

图8、9和10 提供了不同模型的定性对比，也展示了在"消防车的高架水炮"、"从底部数第二个瓶子"等细粒度场景下的精准分割。

7.4 分布外泛化

图11展示了 ORS-OOD-Bench 上的六维度评测：

OOD 维度	Qwen3-VL-Seg cIoU	对比方法表现
类别偏移	53.49%	显著超越其他 MLLM
实例尺度	59.30%	最佳
指令复杂度	86.22%	最佳
光照变化	78.9%	最佳
遮挡	83.45%	最佳
风险敏感场景	8.64%	最佳，但所有方法均大幅跌落

关键洞察 ：尽管 Qwen3-VL-Seg 在 OOD 上全面领先，但在自动驾驶、医学诊断等风险敏感场景中，所有方法都"翻车"（cIoU 仅 8.64%）。这揭示了开放世界分割在安全关键领域仍有巨大提升空间。

7.5 通用多模态能力保持

表4验证了 Stage 2 训练的效果：

基准	InternVL-3.5-4B	Qwen3-VL-4B	Qwen3-VL-Seg Stage-1	Qwen3-VL-Seg Stage-2
MMStar	65.0	69.8	67.5	67.7
MMBench-EN	80.3	83.9	86.2	84.2
MMMU-val	66.6	67.4	63.4	66.2
MathVision	-	51.6	47.9	50.4
CharXiv-RQ	39.6	39.7	38.9	45.2
RefCOCO-val	92.5	91.6	91.8	92.3

Stage 1 后模型在感知任务（MMBench、RefCOCO）上提升，但推理任务（MMMU、MathVision）下降。Stage 2 通过混合训练恢复了通用能力，同时在 CharXiv（图表解析）和 RealWorldQA 上甚至超越了原始 backbone。这证明两阶段策略的成功------不是"偏科生"，而是"全能选手"。

八、消融实验：验证每个组件的价值

表5在 RefCOCO（+/g）Val 上进行了严格消融：

关键结论：

冻结 ViT 严重损害精度：P@0.9 掉 6.1 分，说明视觉骨干必须参与分割适配，不能"躺平"
多尺度特征不可或缺：去掉中间层特征（w/o multivit）后，cIoU 和 P@0.9 一致下降
浅层图像分支恢复边界：去掉高分辨率像素融合（w/o image）后性能下降，证明其对细边界的关键作用
P@0.9 最敏感 ：各组件的增益在严格阈值下最明显，说明它们共同作用于边界质量而非粗略定位

九、创新点总结

创新维度	具体贡献
范式创新	提出面向开放世界指代分割的全链路 Box 结构先验机制
架构创新	在基于 17M 参数 Box-Guided Mask Decoder 的 SAM-free 轻量化架构下，4B 基座模型的精度达到了同期 8B 级 SAM-free 方法的水平
数据创新	构建 SA1B-ORS（约 299 万样本），相比现有 SA-1B 衍生数据在规模与粒度上扩展，含类别导向和描述性双轨监督
评测创新	ORS-Bench 首个系统评测开放世界指代分割的 ID/OOD 基准，覆盖 6 种分布偏移
训练创新	采用分割适应与通用能力协同的两阶段训练策略

十、应用场景

Qwen3-VL-Seg 的"轻量 + 精准 + 开放世界"特性使其在以下场景极具潜力：

智能图像编辑：用户说"把左边穿红衣服的人抠出来换背景"，模型直接输出精确 mask，无需手动描边
机器人视觉抓取："拿起桌子上那个带把手的蓝色杯子"→ 像素级 mask 引导机械臂精准抓取
医学影像分析："分割 CT 中左肺上叶那个不规则结节"------开放世界描述 + 精确边界对诊断至关重要
自动驾驶感知：ORS-OOD-Bench 已包含自动驾驶场景，虽然风险敏感场景仍有挑战，但方向明确
电商/内容审核："标记图片中所有未授权的品牌 Logo"------开放世界类别 + 多实例分割
AR/VR 交互：用户通过自然语言描述选中虚拟/现实场景中的物体，进行交互或信息叠加

十一、结论与展望

Qwen3-VL-Seg 证明了一个重要命题：MLLM 的开放世界理解能力与像素级精确分割之间，并非必须依赖 SAM 这样的"重型桥梁"。通过将边界框作为全链路的结构先验加以系统化利用，作者以仅 17M 参数的轻量 decoder 实现了高质量的像素级分割。

这项工作也为未来指明了几个方向：

风险敏感场景的 OOD 泛化仍是全行业痛点（ORS-OOD-Bench 中 cIoU 仅 8.64%），需要更强的领域自适应；
多模态能力的进一步统一：Stage 2 的恢复策略已验证可行，未来或许能实现"分割-理解-推理"的真正三位一体；
更小规模的部署：4B 模型已能在边缘设备运行，17M 的 decoder 开销极低，为手机端实时开放世界分割提供了可行路径。

对于关注多模态大模型落地的朋友，这篇论文展示了 重要的技术进展，更是"轻量专用模块 + 强大基础模型"这一范式的优秀范例------避免了 参数堆砌与外挂重型模型，而是通过巧妙的架构设计对现有能力进行了充分挖掘与高效利用。

原文链接

HTML 全文：https://arxiv.org/html/2605.07141v1
PDF 下载：https://arxiv.org/pdf/2605.07141v1

创作不易，禁止抄袭，转载请附上原文链接及标题