技术栈
算子融合
数据与后端架构提升之路
4 天前
cuda
·
算子融合
深度解析 TeleTron:融合 CUDA 内核如何极致优化 HunyuanVideo 训练性能
在 DiT (Diffusion Transformer) 模型(如 HunyuanVideo)的训练中,LayerNorm 和 AdaLayerNorm (AdaLN) 是计算图中出现频率极高的算子。原生的 PyTorch 实现往往受限于显存带宽(Memory Bound),导致频繁的内核启动和显存读写。
我是有底线的