技术栈

残差链接

deephub
20 天前
人工智能·深度学习·神经网络·transformer·残差链接
从贝叶斯视角解读Transformer的内部几何:mHC的流形约束与大模型训练稳定性Scaling Laws 已经成为深度学习领域的共识:更大的模型配合更多数据效果往往更好。但当参数量攀升至百亿乃至千亿级别时一个棘手的问题是:训练不稳定性。
deephub
21 天前
人工智能·python·深度学习·神经网络·残差链接
DeepSeek 开年王炸:mHC 架构用流形约束重构 ResNet 残差连接大过节的qwen发布了image 2512,DeepSeek这边就偷摸的在arXiv 上挂出了这篇 mHC: Manifold-Constrained Hyper-Connections (arXiv:2512.24880),哪个正经公司在最后一天还发论文啊。
我是有底线的