mHC架构:用数学约束驯服超宽残差,大模型训练的新范式过去十年,深度学习的演进在很大程度上依赖于残差连接这一简洁却强大的机制。它像一条隐形的缆绳,将深层网络中的信号牢牢稳住,使梯度不至于在反向传播中湮灭或爆炸。然而,随着模型规模不断逼近万亿参数量级,传统的残差结构开始显露其局限性——信息通道太窄,表达能力受限。于是,超连接(Hyper-Connections, HC)应运而生,试图通过拓宽残差流来释放模型潜力。但现实很快给出了教训:更宽的残差流带来了剧烈的数值不稳定性与系统资源瓶颈。如何在保留超连接优势的同时,重新找回那种“恒等映射”般的稳定性?这正是Dee