GPU的硬件架构

SM: streaming Multiprocessor 流多处理器

sm里面有多个(sp)cuda core

32个线程称为一个warp,一个warp是一个基本执行单元

抽象概念:grid 网格 block 块 thread 线程

块中的线程大小是有讲究的,关乎到资源的调度,一般是128,256,512并且是32的倍数

Device:指的是 GPU 芯片。Grid:对应 Device 级别的调度单位,一组block,一个grid中的block可以在多个SM中执行。Block:对应 SM(Streaming Multiprocessor) 级别的调度单位,一组thread,同block中的thread可以协作。Thread:对应 CUDA Core 级别的调度单位,最小执行单元。

一个 thread 一定对应一个 CUDA Core,但是CUDA Core可能对应多个 thread。一个Block内的线程一定会在同一个SM(Streaming Multiprocessor,注意不是后面经常提到的Shared Memory)内,一个SM可以运行多个Block。每一个block内的thread会以warp为单位进行运算,一个warp对应一条指令流,一个warp内的thread是真正同步的,同一个warp内的thread可以读取其他warp的值

c 复制代码
dim3 grid(3, 2);
dim3 block(5, 3);
kernel_fun<<< grid, block >>>(prams...);


cuda的内存模型

典型的CUDA程序的执行流程如下:

  1. 分配host内存,并进行数据初始化;
  2. 分配device内存,并从host将数据拷贝到device上;
  3. 调用CUDA的核函数在device上完成指定的运算;
  4. 将device上的运算结果拷贝到host上;
  5. 释放device和host上分配的内存。

核函数用__global__符号声明,在调用时需要用<<<grid, block>>>来指定kernel要执行的线程数量

在CUDA中,每一个线程都要执行核函数,并且每个线程会分配一个唯一的线程号thread ID,这个ID值可以通过核函数的内置变量threadIdx来获得。

global :在device上执行,从host中调用(一些特定的GPU也可以从device上调用),返回类型必须是void,不支持可变参数参数,不能成为类成员函数。注意用__global__定义的kernel是异步的,这意味着host不会等待kernel执行完就执行下一步。
device :在device上执行,单仅可以从device中调用,不可以和__global__同时用。
host:在host上执行,仅可以从host上调用,一般省略不写,不可以和__global__同时用,但可和__device__,此时函数会在device和host都编译

相关推荐
BackCatK Chen8 天前
2026智驾决赛圈:洗牌、技术决战与3大生死门槛
算法·华为·gpu算力·vla·世界模型
Chasing Aurora11 天前
深度学习 的GPU介绍
人工智能·深度学习·gpu算力·nvidia·智能电视·英伟达·vgpu
JinchuanMaster19 天前
Ubuntu20.04安装50系显卡驱动[不黑屏版本]
linux·人工智能·深度学习·ubuntu·机器学习·机器人·gpu算力
HyperAI超神经20 天前
内存占用最高降低75%,美国能源部科学家提出跨通道分层聚合方法D-CHAG,实现极大规模模型多通道数据集运行
人工智能·深度学习·学习·机器学习·ai编程·gpu算力
OpenBayes22 天前
GLM-4.7-Flash:高性能、高吞吐轻量化的 MoE 推理模型;Delhi Pollution AQl:超过二十万条小时环境观测样本
人工智能·深度学习·算法·机器学习·架构·语音识别·gpu算力
mailangduoduo24 天前
零基础教学连接远程服务器部署项目——VScode版本
服务器·pytorch·vscode·深度学习·ssh·gpu算力
智星云算力25 天前
OpenClaw打工人高效摸鱼攻略(6个实用skills)
gpu算力·智星云·gpu服务器·openclaw·crawdbot
ALINX技术博客1 个月前
【202601芯动态】全球 FPGA 异构热潮,ALINX 高性能异构新品预告
人工智能·fpga开发·gpu算力·fpga
OpenBayes1 个月前
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
人工智能·深度学习·目标检测·机器学习·大模型·ocr·gpu算力
综合热讯1 个月前
2026年GPU算力租赁新标杆,天翼云息壤让智算资源普惠易用
gpu算力