gpgpu

Hi2024021718 小时前
性能优化·gpu·cuda·性能分析·gpgpu
smsp__inst_executed_pipe_fp64为什么对不上smsp__inst_executed_pipe_fp64 为什么对不上
Hi2024021717 天前
性能优化·gpu·cuda·性能分析·gpgpu
验证4个SMSP是否是串行访问ShareMemory的原以为4个smsp中的warp在没有bank冲突的情况下,是可以并行访问共享内存的 通过下面的测试发现,其实是串行的,share memory每个cycle只能处理一个请求
Hi2024021717 天前
性能优化·gpu·cuda·性能分析·gpgpu
NV GPU FMA指令测试本文测试了NV GPU FMA指令的行为哪怕一个空的Kernel,也有ULDC指令,从Constant Memory加载Context(>700cycle)和等待指令加载的stall(>100cycle) 根据fma的峰值性能,smsp的一个active cycle跟fma pipe cycle的比为1:2 如果一个smsp的fma pipe要达到峰值性能的95%,根据以下不等式: (2*fma_inst) / ((fma_inst[eligible]+fma_inst[issued]) + 上面的开销[
Hi2024021722 天前
gpu·cuda·gpgpu
测试NV GPU SM的时钟是否一致输出
不吃葱的酸菜鱼2 个月前
架构·数字ic·硬件设计·gpgpu
通用图形处理器设计GPGPU基础与架构(二)本系列旨在介绍通用图形处理器设计GPGPU的基础与架构,因此在介绍GPGPU具体架构之前,需要了解GPGPU的编程模型,了解软件层面是怎么做到并行的,硬件层面又要怎么配合软件,乃至定出合适的架构来实现软硬件协同。
不吃葱的酸菜鱼2 个月前
架构·数字ic·gpgpu
通用图形处理器设计GPGPU基础与架构(四)本文将介绍GPGPU中线程束的调度方案、记分牌方案和线程块的分配与调度方案。在计算机中有很多资源,既可以是虚拟的计算资源,如线程、进程或数据流,也可以是硬件资源,如处理器、网络连接或 ALU 单元。调度的目的是使得所有资源都处于忙碌状态,从而允许多个工作可以有效地同时共享资源,或达到指定的服务质量。