【知识】PyTorch种两种CUDA时间测量的方法对比

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn]

如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~

在PyTorch中使用CUDA进行时间测量时,以下两者各有优缺点:

  • torch.cuda.current_stream(self._device).synchronize()
  • torch.cuda.Event(enable_timing=True)

torch.cuda.current_stream(self._device).synchronize()

  1. 功能torch.cuda.current_stream(self._device).synchronize() 会同步当前设备的CUDA流,确保之前的所有操作都完成。这可以用来在开始和结束计时前确保所有前面的CUDA操作都完成。
  2. 效率:这种方法一般来说开销较大,因为它会同步整个流,导致所有未完成的CUDA操作都必须等待完成。
  3. 使用场景:适用于需要确保所有CUDA操作完成的场景,但通常不适用于精确的计时测量。
python 复制代码
import torch
import time

# 确保所有之前的操作完成
torch.cuda.current_stream().synchronize()

start_time = time.time()

# 执行一些CUDA操作
# ...

# 再次同步
torch.cuda.current_stream().synchronize()

end_time = time.time()
print(f"Elapsed time: {end_time - start_time} seconds")

torch.cuda.Event(enable_timing=True)

  1. 功能 :通过CUDA事件来进行计时,torch.cuda.Event(enable_timing=True) 创建一个启用了计时的事件,可以用event.record()方法在代码中的特定位置记录时间戳,然后通过计算开始和结束事件之间的时间差来测量操作时间。
  2. 效率:这种方法通常更高效,因为它允许异步记录事件时间,并且只会同步特定的事件,而不是整个流。通常开销较小,适合精确的时间测量。
  3. 使用场景:适用于需要精确测量特定CUDA操作执行时间的场景,例如分析和优化代码性能。
python 复制代码
import torch

start_event = torch.cuda.Event(enable_timing=True)
end_event = torch.cuda.Event(enable_timing=True)

start_event.record()

# 执行一些CUDA操作
# ...

end_event.record()

# 同步并计算时间
torch.cuda.synchronize()
elapsed_time = start_event.elapsed_time(end_event)
print(f"Elapsed time: {elapsed_time} milliseconds")
相关推荐
小王毕业啦13 小时前
2010-2023年 地级市-破产法庭设立数据(+文献)
大数据·人工智能·数据挖掘·数据分析·社科数据·经管数据·破产法庭
一只川页13 小时前
从“对话”到“实干”:大模型应用架构演进全景解析
人工智能·架构
雷焰财经13 小时前
从系统承建到生态赋能:宇信科技全球化战略的纵深与逻辑
大数据·人工智能·科技
阿_旭13 小时前
基于YOLO26深度学习的风力机缺陷检测与语音提示系统【python源码+Pyqt5界面+数据集+训练代码】
人工智能·python·深度学习·风力机缺陷检测
共绩算力13 小时前
海贼王 Pop-Up Book 风格AI生图提示词指南
人工智能·共绩算力
郝学胜-神的一滴14 小时前
深度解析:Python元类手撸ORM框架,解锁底层编程魔法
数据结构·数据库·python·算法·职场和发展
沪漂阿龙14 小时前
大模型最后一步关键训练:偏好调优,让AI更懂人心
人工智能
程序员Sunday14 小时前
5000 字长文,全网最细的OpenClaw(小龙虾)架构拆解,我建议你认真看完
前端·人工智能
AI攻城狮14 小时前
OpenClaw 的 reserveTokensFloor 到底怎么影响 auto-compaction?
人工智能·云原生·aigc
进击ing小白14 小时前
OpenCv之查表法LUT
人工智能·opencv·计算机视觉