从高层 PyTorch 到中层 CUDA Kernel 到底层硬件 Tensor Core

层级 组件 作用 举例
① 高层框架 PyTorch 用户用它写模型,调用 tensor 操作 torch.matmul(a, b)
② 执行层 / 中间层 CUDA kernel 实现 PyTorch 的底层算子逻辑,运行在 GPU 上 cublasGemmEx(), custom_op
③ 硬件执行层 Tensor Core NVIDIA GPU 中用于高效执行矩阵乘法的物理单元 FP16/FP8 TensorMath 单元

🔧 Tensor Core 是什么?

是 NVIDIA Volta 之后引入的硬件结构(TensorMath 单元)

本质是一个 4x4 或 8x8 矩阵乘加(FMA)模块

优化执行如下类型计算:

D = A × B + C

支持精度:FP16, BF16, TF32, FP8(取决于架构)

➡️ Tensor Core 能以比传统 CUDA core 快几倍的吞吐执行矩阵乘法!

🛠️ CUDA kernel 是什么?

是你编写或 PyTorch/库调用的 GPU 端执行代码

是 GPU 上的计算任务载体(你可以手写 .cu 文件,也可以用 JIT 写)

举例:

PyTorch 自带 kernel:aten::add, aten::matmul

cuBLAS kernel:cublasGemmEx()

你自己写的 kernel:my_custom_add<<<>>>

➡️ CUDA kernel 调度线程块 + 调用底层硬件单元(如 Tensor Core)

🧩 torch.compile、custom kernel 与 Tensor Core 的连接

模块 与 Tensor Core 的关系

torch.compile 会尝试 fuse 运算 → 使用 Triton / cuBLAS 等生成高效 kernel

Triton kernel 能生成调用 Tensor Core 的代码(例如 FP16 matmul)

Custom CUDA kernel 你手写 kernel 时,可以手动调用 Tensor Core 相关 intrinsics

相关推荐
武子康2 小时前
调查研究-198 Agent 到底该记住什么?读懂《What Must Generalist Agents Remember?》
人工智能·openai·agent
aqi003 小时前
15天学会AI应用开发(九)利用Chroma持久化向量数据
人工智能·python·大模型·ai编程·ai应用
金銀銅鐵3 小时前
借助 Pygame 探索最大公约数的规律
python·数学·游戏
武子康4 小时前
调查研究-197 FAISS vs Elasticsearch 全面对比:从向量检索、全文搜索到 RAG 选型指南
人工智能·elasticsearch·agent
青禾网络4 小时前
Web 前端如何接入 AI 音效生成:从零到可用的完整方案
人工智能·设计模式
用户252736278144 小时前
【技术实战】用 Spring Boot + Vue3 + LM Studio 在本地跑通 RAG 知识库
人工智能
用户5191495848454 小时前
VBScript随机数生成器内部机制:从时间种子到密码令牌破解
人工智能·aigc
米小虾5 小时前
Context Engineering —— 知识与记忆的窗口
人工智能·agent
IT_陈寒5 小时前
Python里这个赋值坑,连老司机都能翻车
前端·人工智能·后端