Qwen3.6正式开源，华为昇腾910B实现高效适配

Qwen3.6 正式开源，华为昇腾910B实现高效适配

2026年4月17日------阿里巴巴通义千问团队今日宣布，Qwen3.6系列的首款开源模型Qwen3.6-35B-A3B正式发布，并已在魔搭社区和Hugging Face平台开放下载。该模型采用混合专家（MoE）架构，以350亿总参数量、仅激活30亿参数的轻量化设计，在编程、多模态理解等核心能力上实现显著突破，同时华为昇腾910B已完成对该模型的深度适配，为国产算力生态注入新活力。

轻量架构实现性能越级，编程与多模态能力突出

Qwen3.6-35B-A3B作为全球高效轻量型开源模型的代表，通过MoE架构创新打破了"参数至上"的传统认知。模型在智能体编程任务中表现卓越，在Terminal-Bench2.0、SWE-bench Verified等权威基准测试中，得分分别较前代Qwen3.5-35B-A3B提升23%和18%，可无缝衔接OpenClaw、QwenCode等主流Agent框架，支持从代码生成到复杂任务拆解的全流程开发。

多模态能力方面，模型原生支持"思考/非思考"双模式切换，在MMBench、RealWorldQA等视觉语言基准测试中表现媲美Claude-Sonnet-4.5，尤其在空间智能领域，RefCOCO基准得分达92.0，ODInW13基准得分50.8，能够精准完成图像目标定位、文档信息提取等复杂任务。此外，模型原生支持262144 tokens上下文，通过YaRN技术可扩展至百万级，为长文档分析、多轮对话等场景提供完整信息理解能力。

华为昇腾910B完成深度适配，国产算力协同再升级

在Qwen3.6-35B-A3B开源的同时，华为昇腾计算团队宣布已完成该模型在昇腾910B芯片上的深度适配。基于昇腾CANN异构计算架构的三层解耦开放策略，开发团队通过算子融合、通信优化等技术手段，实现了模型推理性能的显著提升：

计算加速：针对MoE架构的稀疏计算特性，采用MLAPO超级算子对Vector与Cube计算单元进行并行化改造，将模型前处理耗时从行业平均109μs压缩至45μs，端到端推理性能提升20%以上。
通信优化：通过NPUDirect通信算法实现"一个消息一次同步"，端到端通信耗时降低50%，有效解决了多卡并行时的通信瓶颈。
内存管理：借助vLLM-Ascend框架的KV Cache分级缓存机制，结合昇腾910B的2.4TB/s高带宽内存，单卡可流畅处理超100万tokens的超长文本推理任务，显存利用率提升20%。

"此次适配实现了从模型架构到硬件底层的深度协同。"华为昇腾计算业务总裁表示，"通过开放CANN底层接口，开发者可直接调用原子级算子进行定制化优化，让Qwen3.6-35B-A3B在昇腾910B上的性能释放达到行业领先水平。"

开源生态与产业应用双向赋能

Qwen3.6-35B-A3B采用Apache 2.0开源协议，开发者可通过魔搭社区、Hugging Face免费下载权重，也可通过阿里云百炼平台以"qwen3.6-flash"名称调用API服务。模型新增的"preserve_thinking"功能，可保留智能体任务中的前序思维内容，进一步降低了复杂应用开发门槛。

在产业应用层面，该模型已展现出强大的落地潜力：在软件开发领域，可帮助企业搭建私有化编程助手，代码生成效率提升40%；在内容创作领域，结合多模态能力实现图文视频的智能处理，内容生产周期缩短60%；在工业、金融等领域，通过昇腾910B的国产化部署方案，满足数据安全与定制化需求。

"开源与国产算力的结合，正在重塑AI产业的创新节奏。"通义实验室负责人表示，"未来我们将持续推动Qwen3.6系列模型的开源工作，并与华为等国产算力伙伴深化合作，为开发者提供更高效、更低成本的技术选择。"

目前，Qwen3.6-35B-A3B已在魔搭社区、Hugging Face平台开放下载，开发者可通过QwenStudio进行在线体验。随着更多Qwen3.6系列模型的陆续开源，国产大模型与国产算力的协同创新，有望为全球AI技术普惠开辟新路径。