《动手学深度学习 Pytorch版》 5.6 GPU

5.6.1 计算设备

python 复制代码
import torch
from torch import nn

torch.device('cpu'), torch.device('cuda:0')  # cuda等价于cuda:0(只有一块显卡没法试别的块号)
复制代码
(device(type='cpu'), device(type='cuda', index=0))
python 复制代码
torch.cuda.device_count()  # 查询可用GPU数量
复制代码
1
python 复制代码
def try_gpu(i=0):  #@save
    """如果存在,则返回gpu(i),否则返回cpu()"""
    if torch.cuda.device_count() >= i + 1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

def try_all_gpus():  #@save
    """返回所有可用的GPU,如果没有GPU,则返回[cpu(),]"""
    devices = [torch.device(f'cuda:{i}')
             for i in range(torch.cuda.device_count())]
    return devices if devices else [torch.device('cpu')]

try_gpu(), try_gpu(10), try_all_gpus()  # 测试
复制代码
(device(type='cuda', index=0),
 device(type='cpu'),
 [device(type='cuda', index=0)])

5.6.2 张量与GPU

python 复制代码
x = torch.tensor([1, 2, 3])
x.device  # 默认情况下张量是存储在CPU上的
复制代码
device(type='cpu')
  1. 存储在GPU上

    可以在创建张量时选择位置

python 复制代码
X = torch.ones(2, 3, device=try_gpu())  # 只有一个GPU也就不试下面那个了
X
复制代码
tensor([[1., 1., 1.],
        [1., 1., 1.]], device='cuda:0')
  1. 复制

    需要执行运算的数据需要在同一块GPU上,如果不在则可以复制过去。

python 复制代码
# Z = X.cuda(1)  # 没显卡没法试
X.cuda(0) is X  # 如果已存在则不会复制
复制代码
True
  1. 旁注

    谨慎复制,并行化的瓶颈在于数据传输而不是运算速度。

5.6.3 神经网络与GPU

python 复制代码
net = nn.Sequential(nn.Linear(3, 1))
net = net.to(device=try_gpu())  # 模型也可以指定位置

net(X)
复制代码
tensor([[0.3092],
        [0.3092]], device='cuda:0', grad_fn=<AddmmBackward0>)
python 复制代码
net[0].weight.data.device #  所需要的数据和参数在同一设备时才可用该设备运算
复制代码
device(type='cuda', index=0)

练习

(1)尝试一个计算量很大的任务,比如大矩阵的乘法,看看CPU和GPU的速度差异。再尝试一个计算量很小的任务呢?

python 复制代码
import time

start_CPU=time.time()
for i in range(1000):
    A = torch.rand(1000, 1000)
    B = torch.rand(1000, 1000)
    C = torch.matmul(A, B)
end_CPU=time.time()

start_GPU=time.time()
for i in range(1000):
    A = torch.rand(1000, 1000, device=try_gpu())
    B = torch.rand(1000, 1000, device=try_gpu())
    C = torch.matmul(A, B)
end_GPU=time.time()

print(f'大计算量任务CPU运算时长: {round((end_CPU - start_CPU)*1000, 2)} ms')
print(f'大计算量任务GPU运算时长: {round((end_GPU - start_GPU)*1000, 2)} ms')

start_CPU=time.time()
A = torch.rand(5, 5)
B = torch.rand(5, 5)
C = torch.matmul(A, B)
end_CPU=time.time()

start_GPU=time.time()
A = torch.rand(5, 5, device=try_gpu())
B = torch.rand(5, 5, device=try_gpu())
C = torch.matmul(A, B)
end_GPU=time.time()

print(f'小计算量任务CPU运算时长: {round((end_CPU - start_CPU) * 1000, 2)} ms')
print(f'小计算量任务CPU运算时长: {round((end_GPU - start_GPU) * 1000, 2)} ms')
复制代码
大计算量任务CPU运算时长: 23190.1 ms
大计算量任务GPU运算时长: 60.0 ms
小计算量任务CPU运算时长: 1.0 ms
小计算量任务GPU运算时长: 0.0 ms

(2)我们应该如何在GPU上读写模型参数?

使用 net.to() 函数迁移模型到 GPU 上即可。


(3)测量计算 1000 个 100*100 矩阵乘法所需的时间,并记录输出矩阵的弗罗贝尼乌斯范数,一次记录一个结果,而不是在GPU上保存日志并进传输最终结果。

python 复制代码
A = torch.rand(100, 100, device=try_gpu())

start = time.time()
for i in range(1000):
    A = torch.mm(A, A)
    B = torch.norm(A)  # 逐个记录
end = time.time()
print(f'逐个记录耗费时间:{round((end - start) * 1000)} ms')

A = torch.rand(100, 100, device=try_gpu())
start = time.time()
for i in range(1000):
    A = torch.mm(A, A)
B = torch.norm(A)  # 最终记录
end = time.time()
print(f'最终记录耗费时间:{round((end - start) * 1000)} ms')
复制代码
逐个记录耗费时间:48 ms
最终记录耗费时间:10 ms

(4)测量同时在两个 GPU 上执行两个矩阵乘法与在一个 GPU 上按顺序执行两个矩阵乘法所需的时间。

相关推荐
minhuan5 分钟前
医疗AI智能体:从数据到关怀人文设计:告别冰冷精准,构建有温度的诊疗交互.131
人工智能·ai智能体·智能体的人文设计·医疗ai人文设计·构建医疗ai智能体
Promise微笑39 分钟前
驾驭AI引用:Geo优化中的内容评分机制与实战策略深度解析
人工智能
ai生成式引擎优化技术1 小时前
全球唯一四元结构底层架构问世:TSPR-WEB-LLM-HIC v2.0 终结大模型投毒与幻觉的终极技术范式
人工智能
阿钱真强道1 小时前
08 从 MLP 到 LeNet:为什么一个神经元不够?
深度学习·神经网络·机器学习·mlp·决策边界
听你说321 小时前
伊萨推出 ROBBI 360 协作机器人焊接工作站 简化自动化焊接部署流程
人工智能·机器人·自动化
weixin_408099671 小时前
【实战对比】在线 OCR 识别 vs OCR API 接口:从个人工具到系统集成该怎么选?
图像处理·人工智能·后端·ocr·api·图片文字识别·文字识别ocr
罗西的思考2 小时前
【OpenClaw】通过Nanobot源码学习架构---(2)外层控制逻辑
人工智能·机器学习
火山引擎开发者社区2 小时前
明天武汉!用好“龙虾”的关键要素全在这儿
人工智能
梦想很大很大2 小时前
从 0 到 1 实现 AI Agent(02):设计可扩展的 Tool 调用系统
人工智能·llm·agent