gpgpu

Nvidia显卡架构演进显示卡（英语：Display Card）简称显卡，也称图形卡（Graphics Card），是个人电脑上以图形处理器（GPU）为核心的扩展卡，用途是提供中央处理器以外的微处理器帮助计算图像信息，并将计算机系统所需要的显示信息进行转换并提供逐行或隔行扫描信号给显示设备，是连接显示器和个人电脑主板的重要组件，是“人机交互”的重要设备之一。显卡有时被称为独立显卡或专用显卡，以强调它们与主板上的集成图形处理器（集成显卡）或中央处理器 (CPU) 的区别。早期显卡主要用来进行图像显示，其主要应用场景为游戏渲染

安全二次方security²

基于RISC-V的开源通用GPU指令集架构--乘影OpenGPGPU安全之安全(security²)博客目录导读本篇博客，我们聚焦RISC-V 2024中国峰会上RISC-V的GPGPU相关专题中的乘影OpenGPGPU，来自清华大学何虎老师。

ubuntu 18.04 cuda 11.01 gpgpu-sim 裸机编译ubuntu 18.04x86_64cuda 11.01gpgpu-sim mastercommit 90ec3399763d7c8512cfe7dc193473086c38ca38

CUDA cooperative_groups grid_group测试CUDA Cooperative Groups是CUDA编程模型中引入的一组高级特性，提供了更灵活的线程组织和同步机制通过Cooperative Groups，开发者可以在不同层次上组织线程，并执行更高效的并行操作 grid_group.sync 可用于整个grid同步

Rocprofiler测试Rocprofiler测试输出在 ROCm（Radeon Open Compute）平台中，Agent 通常指的是计算设备或处理单元，这些可以是 CPU 或 GPU。每个 Agent 可以执行计算任务并具有自己的计算资源，如计算核心、内存等。在 ROCm 的程序模型中，Agent 是负责执行特定任务的实体，当你使用 ROCm 进行并行计算时，任务通常会分配给不同的 Agent 来处理。Agent 是 ROCm 的异构计算环境中进行任务调度和管理的基本单元之一

RTX3060 FP64测试与猜想RTX3060 FP64测试与猜想RTX3060 compute capability为8.6,每个SM有2个FP64 core。每个cycle可输出2个fp64的结果

smsp__inst_executed_pipe_fp64为什么对不上smsp__inst_executed_pipe_fp64 为什么对不上

验证4个SMSP是否是串行访问ShareMemory的原以为4个smsp中的warp在没有bank冲突的情况下,是可以并行访问共享内存的通过下面的测试发现,其实是串行的,share memory每个cycle只能处理一个请求

NV GPU FMA指令测试本文测试了NV GPU FMA指令的行为哪怕一个空的Kernel,也有ULDC指令,从Constant Memory加载Context(>700cycle)和等待指令加载的stall(>100cycle) 根据fma的峰值性能,smsp的一个active cycle跟fma pipe cycle的比为1:2 如果一个smsp的fma pipe要达到峰值性能的95%,根据以下不等式: (2*fma_inst) / ((fma_inst[eligible]+fma_inst[issued]) + 上面的开销[

测试NV GPU SM的时钟是否一致输出

不吃葱的酸菜鱼

通用图形处理器设计GPGPU基础与架构（二）本系列旨在介绍通用图形处理器设计GPGPU的基础与架构，因此在介绍GPGPU具体架构之前，需要了解GPGPU的编程模型，了解软件层面是怎么做到并行的，硬件层面又要怎么配合软件，乃至定出合适的架构来实现软硬件协同。

不吃葱的酸菜鱼

通用图形处理器设计GPGPU基础与架构（四）本文将介绍GPGPU中线程束的调度方案、记分牌方案和线程块的分配与调度方案。在计算机中有很多资源，既可以是虚拟的计算资源，如线程、进程或数据流，也可以是硬件资源，如处理器、网络连接或 ALU 单元。调度的目的是使得所有资源都处于忙碌状态，从而允许多个工作可以有效地同时共享资源，或达到指定的服务质量。

我是有底线的