技术栈
残差链接
deephub
20 天前
人工智能
·
深度学习
·
神经网络
·
transformer
·
残差链接
从贝叶斯视角解读Transformer的内部几何:mHC的流形约束与大模型训练稳定性
Scaling Laws 已经成为深度学习领域的共识:更大的模型配合更多数据效果往往更好。但当参数量攀升至百亿乃至千亿级别时一个棘手的问题是:训练不稳定性。
deephub
21 天前
人工智能
·
python
·
深度学习
·
神经网络
·
残差链接
DeepSeek 开年王炸:mHC 架构用流形约束重构 ResNet 残差连接
大过节的qwen发布了image 2512,DeepSeek这边就偷摸的在arXiv 上挂出了这篇 mHC: Manifold-Constrained Hyper-Connections (arXiv:2512.24880),哪个正经公司在最后一天还发论文啊。
我是有底线的