技术栈

算子融合

Dfreedom.
21 天前
人工智能·深度学习·gpu·gpu加速·模型加速·算子融合·模型计算
算子融合:从硬件本质到性能飞跃的深度学习优化艺术在深度学习模型部署中,我们经常遇到这样的困境:同样的模型,同样的硬件,为什么推理速度却有天壤之别?一个在GPU上需要20ms的模型,经过优化后可能只需要5ms。这背后的关键优化技术之一就是算子融合。
数据与后端架构提升之路
5 个月前
cuda·算子融合
深度解析 TeleTron:融合 CUDA 内核如何极致优化 HunyuanVideo 训练性能在 DiT (Diffusion Transformer) 模型(如 HunyuanVideo)的训练中,LayerNorm 和 AdaLayerNorm (AdaLN) 是计算图中出现频率极高的算子。原生的 PyTorch 实现往往受限于显存带宽(Memory Bound),导致频繁的内核启动和显存读写。
我是有底线的