技术栈

重写算子

数据与后端架构提升之路
4 小时前
cuda编程·重写算子
从 CUDA Kernel 到 TensorRT Plugin:一条 AI Infra 工程师的最小可复现路径单卡 RTX 4090 D · PyTorch 2.5 · CUDA 12.4 · TensorRT 10.x 面向:想从"会调 PyTorch"走到"能写算子、能上线模型"的工程师
我是有底线的