从高层 PyTorch 到中层 CUDA Kernel 到底层硬件 Tensor Core

层级 组件 作用 举例
① 高层框架 PyTorch 用户用它写模型,调用 tensor 操作 torch.matmul(a, b)
② 执行层 / 中间层 CUDA kernel 实现 PyTorch 的底层算子逻辑,运行在 GPU 上 cublasGemmEx(), custom_op
③ 硬件执行层 Tensor Core NVIDIA GPU 中用于高效执行矩阵乘法的物理单元 FP16/FP8 TensorMath 单元

🔧 Tensor Core 是什么?

是 NVIDIA Volta 之后引入的硬件结构(TensorMath 单元)

本质是一个 4x4 或 8x8 矩阵乘加(FMA)模块

优化执行如下类型计算:

D = A × B + C

支持精度:FP16, BF16, TF32, FP8(取决于架构)

➡️ Tensor Core 能以比传统 CUDA core 快几倍的吞吐执行矩阵乘法!

🛠️ CUDA kernel 是什么?

是你编写或 PyTorch/库调用的 GPU 端执行代码

是 GPU 上的计算任务载体(你可以手写 .cu 文件,也可以用 JIT 写)

举例:

PyTorch 自带 kernel:aten::add, aten::matmul

cuBLAS kernel:cublasGemmEx()

你自己写的 kernel:my_custom_add<<<>>>

➡️ CUDA kernel 调度线程块 + 调用底层硬件单元(如 Tensor Core)

🧩 torch.compile、custom kernel 与 Tensor Core 的连接

模块 与 Tensor Core 的关系

torch.compile 会尝试 fuse 运算 → 使用 Triton / cuBLAS 等生成高效 kernel

Triton kernel 能生成调用 Tensor Core 的代码(例如 FP16 matmul)

Custom CUDA kernel 你手写 kernel 时,可以手动调用 Tensor Core 相关 intrinsics

相关推荐
爱学习的小道长8 分钟前
Python 比较huggingface_hub库的hf_hub_download函数和snapshot_download函数
开发语言·python
xw337340956417 分钟前
目标检测基础
人工智能·yolo
牛哥带你学代码17 分钟前
计算机视觉全流程(基础知识)
人工智能·机器学习
传奇开心果编程37 分钟前
【传奇开心果系列】Flet框架实现的图形化界面的PDF转word转换器办公小工具自定义模板
前端·python·学习·ui·前端框架·pdf·word
竹子_231 小时前
《零基础入门AI: 目标检测基础知识》
人工智能·python·目标检测·计算机视觉
想你依然心痛1 小时前
零后端、零配置:用 AI 编程工具「Cursor」15 分钟上线「Vue3 留言墙」
人工智能
八个程序员1 小时前
微生产力革命:AI解决生活小任务分享会
人工智能·生活
stbomei1 小时前
当 AI 走进日常:除了聊天机器人,这些 “隐形应用” 正在改变我们的生活
人工智能·机器人·生活
IT_陈寒1 小时前
Python开发者必知的5个高效技巧,让你的代码速度提升50%!
前端·人工智能·后端
Alter12301 小时前
当AI有了温度,三星正在重新定义生活的边界
人工智能·生活