gpgpu

Eloudy1 个月前
cuda·gpgpu·gpgpu-sim
ubuntu 18.04 cuda 11.01 gpgpu-sim 裸机编译ubuntu 18.04x86_64cuda 11.01gpgpu-sim mastercommit 90ec3399763d7c8512cfe7dc193473086c38ca38
Hi202402171 个月前
gpu·cuda·gpgpu
CUDA cooperative_groups grid_group测试CUDA Cooperative Groups是CUDA编程模型中引入的一组高级特性,提供了更灵活的线程组织和同步机制 通过Cooperative Groups,开发者可以在不同层次上组织线程,并执行更高效的并行操作 grid_group.sync 可用于整个grid同步
Hi202402172 个月前
gpu·cuda·amd·gpgpu·rocm
Rocprofiler测试Rocprofiler测试输出在 ROCm(Radeon Open Compute)平台中,Agent 通常指的是计算设备或处理单元,这些可以是 CPU 或 GPU。每个 Agent 可以执行计算任务并具有自己的计算资源,如计算核心、内存等。在 ROCm 的程序模型中,Agent 是负责执行特定任务的实体,当你使用 ROCm 进行并行计算时,任务通常会分配给不同的 Agent 来处理。Agent 是 ROCm 的异构计算环境中进行任务调度和管理的基本单元之一
Hi202402172 个月前
性能优化·gpu·cuda·性能分析·gpgpu
RTX3060 FP64测试与猜想RTX3060 FP64测试与猜想RTX3060 compute capability为8.6,每个SM有2个FP64 core。每个cycle可输出2个fp64的结果
Hi202402172 个月前
性能优化·gpu·cuda·性能分析·gpgpu
smsp__inst_executed_pipe_fp64为什么对不上smsp__inst_executed_pipe_fp64 为什么对不上
Hi202402172 个月前
性能优化·gpu·cuda·性能分析·gpgpu
验证4个SMSP是否是串行访问ShareMemory的原以为4个smsp中的warp在没有bank冲突的情况下,是可以并行访问共享内存的 通过下面的测试发现,其实是串行的,share memory每个cycle只能处理一个请求
Hi202402172 个月前
性能优化·gpu·cuda·性能分析·gpgpu
NV GPU FMA指令测试本文测试了NV GPU FMA指令的行为哪怕一个空的Kernel,也有ULDC指令,从Constant Memory加载Context(>700cycle)和等待指令加载的stall(>100cycle) 根据fma的峰值性能,smsp的一个active cycle跟fma pipe cycle的比为1:2 如果一个smsp的fma pipe要达到峰值性能的95%,根据以下不等式: (2*fma_inst) / ((fma_inst[eligible]+fma_inst[issued]) + 上面的开销[
Hi202402173 个月前
gpu·cuda·gpgpu
测试NV GPU SM的时钟是否一致输出
不吃葱的酸菜鱼4 个月前
架构·数字ic·硬件设计·gpgpu
通用图形处理器设计GPGPU基础与架构(二)本系列旨在介绍通用图形处理器设计GPGPU的基础与架构,因此在介绍GPGPU具体架构之前,需要了解GPGPU的编程模型,了解软件层面是怎么做到并行的,硬件层面又要怎么配合软件,乃至定出合适的架构来实现软硬件协同。
不吃葱的酸菜鱼4 个月前
架构·数字ic·gpgpu
通用图形处理器设计GPGPU基础与架构(四)本文将介绍GPGPU中线程束的调度方案、记分牌方案和线程块的分配与调度方案。在计算机中有很多资源,既可以是虚拟的计算资源,如线程、进程或数据流,也可以是硬件资源,如处理器、网络连接或 ALU 单元。调度的目的是使得所有资源都处于忙碌状态,从而允许多个工作可以有效地同时共享资源,或达到指定的服务质量。