从高层 PyTorch 到中层 CUDA Kernel 到底层硬件 Tensor Core

层级 组件 作用 举例
① 高层框架 PyTorch 用户用它写模型,调用 tensor 操作 torch.matmul(a, b)
② 执行层 / 中间层 CUDA kernel 实现 PyTorch 的底层算子逻辑,运行在 GPU 上 cublasGemmEx(), custom_op
③ 硬件执行层 Tensor Core NVIDIA GPU 中用于高效执行矩阵乘法的物理单元 FP16/FP8 TensorMath 单元

🔧 Tensor Core 是什么?

是 NVIDIA Volta 之后引入的硬件结构(TensorMath 单元)

本质是一个 4x4 或 8x8 矩阵乘加(FMA)模块

优化执行如下类型计算:

D = A × B + C

支持精度:FP16, BF16, TF32, FP8(取决于架构)

➡️ Tensor Core 能以比传统 CUDA core 快几倍的吞吐执行矩阵乘法!

🛠️ CUDA kernel 是什么?

是你编写或 PyTorch/库调用的 GPU 端执行代码

是 GPU 上的计算任务载体(你可以手写 .cu 文件,也可以用 JIT 写)

举例:

PyTorch 自带 kernel:aten::add, aten::matmul

cuBLAS kernel:cublasGemmEx()

你自己写的 kernel:my_custom_add<<<>>>

➡️ CUDA kernel 调度线程块 + 调用底层硬件单元(如 Tensor Core)

🧩 torch.compile、custom kernel 与 Tensor Core 的连接

模块 与 Tensor Core 的关系

torch.compile 会尝试 fuse 运算 → 使用 Triton / cuBLAS 等生成高效 kernel

Triton kernel 能生成调用 Tensor Core 的代码(例如 FP16 matmul)

Custom CUDA kernel 你手写 kernel 时,可以手动调用 Tensor Core 相关 intrinsics

相关推荐
拥抱AGI几秒前
Qwen3.5开源矩阵震撼发布!从0.8B到397B,不同规模模型性能、显存、速度深度对比与选型指南来了!
人工智能·学习·程序员·开源·大模型·大模型训练·qwen3.5
哈喽天空几秒前
win10原生安装openclaw
人工智能
geinvse_seg3 分钟前
开源实战——手把手教你搭建AI量化分析平台:从Docker部署到波浪理论实战
人工智能·docker·开源·蓝耘元生代·蓝耘maas
永霖光电_UVLED6 分钟前
Marvell 与 Mojo Vision共同开发基于 micro-LED光学互连解决方案
人工智能
码头码农7 分钟前
Prompt进阶:9个月总结的核心工作流,让AI进入工程流程
人工智能·prompt
唐叔在学习8 分钟前
Python移动端应用消息提醒开发实践
开发语言·python
好家伙VCC9 分钟前
**发散创新:基于Python与OpenCV的视频流帧级分析实战**在当前人工智能与计算机视觉飞速发展的背景下
java·人工智能·python·计算机视觉
lpfasd1239 分钟前
Harness架构将成为AI工程的终极范式
人工智能·架构
xiaotao13110 分钟前
阶段零:IDE选择 与 Jupyter Notebook / Lab 使用
ide·人工智能·python·jupyter