从高层 PyTorch 到中层 CUDA Kernel 到底层硬件 Tensor Core

层级 组件 作用 举例
① 高层框架 PyTorch 用户用它写模型,调用 tensor 操作 torch.matmul(a, b)
② 执行层 / 中间层 CUDA kernel 实现 PyTorch 的底层算子逻辑,运行在 GPU 上 cublasGemmEx(), custom_op
③ 硬件执行层 Tensor Core NVIDIA GPU 中用于高效执行矩阵乘法的物理单元 FP16/FP8 TensorMath 单元

🔧 Tensor Core 是什么?

是 NVIDIA Volta 之后引入的硬件结构(TensorMath 单元)

本质是一个 4x4 或 8x8 矩阵乘加(FMA)模块

优化执行如下类型计算:

D = A × B + C

支持精度:FP16, BF16, TF32, FP8(取决于架构)

➡️ Tensor Core 能以比传统 CUDA core 快几倍的吞吐执行矩阵乘法!

🛠️ CUDA kernel 是什么?

是你编写或 PyTorch/库调用的 GPU 端执行代码

是 GPU 上的计算任务载体(你可以手写 .cu 文件,也可以用 JIT 写)

举例:

PyTorch 自带 kernel:aten::add, aten::matmul

cuBLAS kernel:cublasGemmEx()

你自己写的 kernel:my_custom_add<<<>>>

➡️ CUDA kernel 调度线程块 + 调用底层硬件单元(如 Tensor Core)

🧩 torch.compile、custom kernel 与 Tensor Core 的连接

模块 与 Tensor Core 的关系

torch.compile 会尝试 fuse 运算 → 使用 Triton / cuBLAS 等生成高效 kernel

Triton kernel 能生成调用 Tensor Core 的代码(例如 FP16 matmul)

Custom CUDA kernel 你手写 kernel 时,可以手动调用 Tensor Core 相关 intrinsics

相关推荐
金井PRATHAMA11 小时前
描述逻辑(Description Logic)对自然语言处理深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
Rock_yzh11 小时前
AI学习日记——参数的初始化
人工智能·python·深度学习·学习·机器学习
CiLerLinux13 小时前
第四十九章 ESP32S3 WiFi 路由实验
网络·人工智能·单片机·嵌入式硬件
青衫客3613 小时前
基于 Python 构建的安全 gRPC 服务——TLS、mTLS 与 Casbin 授权实战
python·安全·微服务
-dzk-14 小时前
【3DGS复现】Autodl服务器复现3DGS《简单快速》《一次成功》《新手练习复现必备》
运维·服务器·python·计算机视觉·3d·三维重建·三维
七芒星202314 小时前
多目标识别YOLO :YOLOV3 原理
图像处理·人工智能·yolo·计算机视觉·目标跟踪·分类·聚类
Learn Beyond Limits15 小时前
Mean Normalization|均值归一化
人工智能·神经网络·算法·机器学习·均值算法·ai·吴恩达
摩羯座-1856903059415 小时前
爬坑 10 年!京东店铺全量商品接口实战开发:从分页优化、SKU 关联到数据完整性闭环
linux·网络·数据库·windows·爬虫·python
ACERT33315 小时前
5.吴恩达机器学习—神经网络的基本使用
人工智能·python·神经网络·机器学习
韩立学长15 小时前
【开题答辩实录分享】以《基于python的奶茶店分布数据分析与可视化》为例进行答辩实录分享
开发语言·python·数据分析