Qwen3.6 正式开源,华为昇腾910B实现高效适配
2026年4月17日------阿里巴巴通义千问团队今日宣布,Qwen3.6系列的首款开源模型Qwen3.6-35B-A3B正式发布,并已在魔搭社区和Hugging Face平台开放下载。该模型采用混合专家(MoE)架构,以350亿总参数量、仅激活30亿参数的轻量化设计,在编程、多模态理解等核心能力上实现显著突破,同时华为昇腾910B已完成对该模型的深度适配,为国产算力生态注入新活力。
轻量架构实现性能越级,编程与多模态能力突出
Qwen3.6-35B-A3B作为全球高效轻量型开源模型的代表,通过MoE架构创新打破了"参数至上"的传统认知。模型在智能体编程任务中表现卓越,在Terminal-Bench2.0、SWE-bench Verified等权威基准测试中,得分分别较前代Qwen3.5-35B-A3B提升23%和18%,可无缝衔接OpenClaw、QwenCode等主流Agent框架,支持从代码生成到复杂任务拆解的全流程开发。
多模态能力方面,模型原生支持"思考/非思考"双模式切换,在MMBench、RealWorldQA等视觉语言基准测试中表现媲美Claude-Sonnet-4.5,尤其在空间智能领域,RefCOCO基准得分达92.0,ODInW13基准得分50.8,能够精准完成图像目标定位、文档信息提取等复杂任务。此外,模型原生支持262144 tokens上下文,通过YaRN技术可扩展至百万级,为长文档分析、多轮对话等场景提供完整信息理解能力。
华为昇腾910B完成深度适配,国产算力协同再升级
在Qwen3.6-35B-A3B开源的同时,华为昇腾计算团队宣布已完成该模型在昇腾910B芯片上的深度适配。基于昇腾CANN异构计算架构的三层解耦开放策略,开发团队通过算子融合、通信优化等技术手段,实现了模型推理性能的显著提升:
- 计算加速:针对MoE架构的稀疏计算特性,采用MLAPO超级算子对Vector与Cube计算单元进行并行化改造,将模型前处理耗时从行业平均109μs压缩至45μs,端到端推理性能提升20%以上。
- 通信优化:通过NPUDirect通信算法实现"一个消息一次同步",端到端通信耗时降低50%,有效解决了多卡并行时的通信瓶颈。
- 内存管理:借助vLLM-Ascend框架的KV Cache分级缓存机制,结合昇腾910B的2.4TB/s高带宽内存,单卡可流畅处理超100万tokens的超长文本推理任务,显存利用率提升20%。
"此次适配实现了从模型架构到硬件底层的深度协同。"华为昇腾计算业务总裁表示,"通过开放CANN底层接口,开发者可直接调用原子级算子进行定制化优化,让Qwen3.6-35B-A3B在昇腾910B上的性能释放达到行业领先水平。"
开源生态与产业应用双向赋能
Qwen3.6-35B-A3B采用Apache 2.0开源协议,开发者可通过魔搭社区、Hugging Face免费下载权重,也可通过阿里云百炼平台以"qwen3.6-flash"名称调用API服务。模型新增的"preserve_thinking"功能,可保留智能体任务中的前序思维内容,进一步降低了复杂应用开发门槛。
在产业应用层面,该模型已展现出强大的落地潜力:在软件开发领域,可帮助企业搭建私有化编程助手,代码生成效率提升40%;在内容创作领域,结合多模态能力实现图文视频的智能处理,内容生产周期缩短60%;在工业、金融等领域,通过昇腾910B的国产化部署方案,满足数据安全与定制化需求。
"开源与国产算力的结合,正在重塑AI产业的创新节奏。"通义实验室负责人表示,"未来我们将持续推动Qwen3.6系列模型的开源工作,并与华为等国产算力伙伴深化合作,为开发者提供更高效、更低成本的技术选择。"
目前,Qwen3.6-35B-A3B已在魔搭社区、Hugging Face平台开放下载,开发者可通过QwenStudio进行在线体验。随着更多Qwen3.6系列模型的陆续开源,国产大模型与国产算力的协同创新,有望为全球AI技术普惠开辟新路径。