Transformer 23. Qwen 3.5 架构介绍:混合线性/全注意力、MoE 与相对 Qwen 1 / 2 / 3 的演进摘要:本文说明 Qwen3.5 开放权重系列的文本骨干(公开权重多为 图文统一 的 ForConditionalGeneration,含 Vision Encoder;数学与实现细节以 text_config 为主)。相对 Qwen3 及更早代际,Qwen3.5 的硬变化是 高效混合架构:在堆叠的 Decoder 层中 交替使用「线性注意力类子层(配置名 linear_attention)」与「标准因果全注意力子层(full_attention)」,典型节奏为 每 4 层中 3 层线性、1 层全注意力(f