【MLLM】Qwen3.5模型

note

✦ 基于混合结构,397B总参/17B激活,能力匹配 >1T 参数的 Qwen3-Max;

✦ 原生多模态设计,同量级下多模态任务表现优于 Qwen3-VL;

✦ 覆盖 201 种语言;

✦ 在代码生成、智能体推理与多模态理解方面表现卓越;

文章目录

一、Qwen3.5模型

基本信息

  • 类型:带视觉编码器的因果语言模型
  • 训练阶段:预训练与后训练

语言模型参数

  • 参数总量:3970亿
  • 激活参数量:170亿
  • 隐藏层维度:4096
  • Token嵌入维度:248320(已填充)
  • 层数 :60
    • 隐藏层结构
      15 * (3 * (门控 DeltaNet -> MoE) -> 1 * (门控注意力 -> MoE))

门控 DeltaNet 模块

  • 线性注意力头数量
    • V(值)头:64
    • QK(查询-键)头:16
  • 头维度:128

门控注意力模块

  • 注意力头数量
    • Q(查询)头:32
    • KV(键-值)头:2
  • 头维度:256
  • 旋转位置嵌入维度:64

混合专家系统(MoE)

  • 专家总数:512
  • 激活专家数:10个路由专家 + 1个共享专家
  • 专家中间层维度:1024

输出与训练

  • 语言模型输出维度:248320(已填充)
  • MTP(多步训练策略):采用多步训练

上下文长度

  • 原生支持:262,144个token
  • 可扩展至:最多1,010,000个token

1、效率优化

在 32k 上下文长度下,Qwen3.5-397B-A17B 的吞吐量达到 Qwen3-Max 的 8.6 倍,同时保持相当的性能表现。这得益于 Next 混合架构的三项关键设计:

  • 更高稀疏度的 MoE:单次推理仅激活 17B 参数,按需调用专家模块;
  • 门控 DeltaNet 与门控注意力混合机制:兼顾长序列处理速度与推理质量;
  • 多 token 预测:单次前向推理预测多个 token,显著提升生成效率

2、泛化能力提升

在同等规模下,Qwen3.5-397B-A17B 超越 Qwen3-VL,得益于三项设计:

  • 原生多模态融合:通过训练阶段的早期文本-视觉融合,视觉与语言在统一表征空间中联合学习,提升 GUI 理解、视频分析等跨模态任务的连贯性;
  • 多语言覆盖扩展:训练数据覆盖语言从 119 种扩展至 201 种,强化全球用户的语言表达理解;
  • 词表扩容至 250k:编解码效率提升 10--60%,尤其改善长尾语言与复杂表达的 tokenization 效果。

3、多模态能力提升

过去的多模态模型通常是:"视觉编码器 + 语言模型"的拼接:图片先被转成特征,再喂给语言模型理解。我们在 Qwen3.5-397B-A17B 训练阶段就把文本和视觉数据融合,让模型在统一的空间里同时学习"看"和"说"。一个模型,端到端,全搞定------从视觉推理、空间定位到 GUI 操作与视频理解,任务连贯性显著提升。

依托覆盖图像、视频、STEM 与 GUI 的多元视觉数据训练,Qwen3.5 在同等规模下超越 Qwen3-VL,真正迈向原生多模态 Agents。

二、LLM infra优化

通过训推分离架构的解耦式设计,该框架显著提升了硬件利用率,实现了动态负载均衡和细粒度的故障恢复。配合 FP8 训推、Rollout 路由回放、投机采样以及多轮 Rollout 锁定等技术,我们进一步优化了系统吞吐,提高了训推一致性。

通过系统与算法协同设计,该框架在严格控制样本陈旧性的基础上有效缓解了数据长尾问题,提高了训练曲线的稳定性和性能上限。

框架面向原生智能体工作流设计,能够实现稳定、无缝的多轮环境交互,消除了框架层的调度中断。这种解耦设计使得系统能够扩展百万级规模的 Agent 脚手架与环境,从而显著增强模型的泛化能力。上述优化最终取得了 3×--5× 的端到端加速,展现了卓越的稳定性、高效率与可扩展性。

Reference

1\] [Qwen3.5:更少激活参数,更强智能体能力](https://mp.weixin.qq.com/s/8GE07MflCJcS6IcJFkd68g) \[2\] https://github.com/QwenLM/Qwen3.5?spm=a2ty_o06.30285417.0.0.72bcc921bSC8dm\&file=Qwen3.5 \[3\] https://qwen.ai/blog?id=qwen3.5 \[4\] https://modelscope.cn/models/Qwen/Qwen3.5-397B-A17B

相关推荐
XLYcmy3 小时前
智能体大赛 技术架构 数据根基层
数据库·ai·llm·api·agent·幻觉·万方
PPIO派欧云4 小时前
Qwen3.5重磅发布 PPIO 模型服务平台同步上线
ai·大模型
AI周红伟4 小时前
周红伟:Agent Skills+OpenClaw+RAG+Agent+SeeDance2.0企业智能体智能体应用实战
人工智能·大模型·智能体·seedance
XLYcmy5 小时前
智能体大赛 核心功能 可信文献检索与系统性知识梳理
数据库·ai·llm·prompt·知识图谱·agent·检索
缘友一世5 小时前
Conda 环境打包迁移完整指南:处理可编辑安装包(Editable Packages)
llm·conda·easy-r1
小草cys6 小时前
opencode/claude code自动写书啦
人工智能·自动化·大模型
Tadas-Gao7 小时前
架构逆转向量:AI时代规范驱动开发的范式重构与实践图谱
人工智能·云原生·重构·架构·系统架构·大模型
CoderJia程序员甲8 小时前
GitHub 热榜项目 - 日榜(2026-02-16)
大模型·llm·github·ai教程
来两个炸鸡腿8 小时前
【Datawhale组队学习202602】Hello-Agents task04智能体经典范式构建
人工智能·学习·大模型·智能体