cuda编程

chen_song_16 天前
c++·人工智能·计算机视觉·数据挖掘·cuda编程·并行化计算·并行化计算与cuda编程
CUDA的设备,流处理器(Streams),核,线程块(threadblock),线程,网格(‌gridDim),块(block)和多gpu设备同步数据概念SIMT和SIMDCUDA执行的是SIMT架构(单指令多线程架构),SIMT和SIMD(Single Instruction, Multiple Data)类似,SIMT应该算是SIMD的升级版,更灵活,但效率略低,SIMT是NVIDIA提出的GPU新概念。二者都通过将同样的指令广播给多个执行官单元来实现并行。一个主要的不同就是,SIMD要求所有的vector element在一个统一的同步组里同步的执行,而SIMT允许线程们在一个warp中独立的执行。
AI小白龙3 个月前
pytorch·python·gpu·cuda编程
使用torch.compile进行CPU优化在PyTorch中,使用torch.compile可以自动地将模型转换成优化的执行代码,这对于提升模型在CPU上的运行效率尤其有用。torch.compile是基于TorchDynamo实现的,它可以将Python代码转换为高效的TorchScript代码。这对于那些在CPU上运行的大型模型尤其有益,因为它可以减少运行时开销并提高整体性能。
Briwisdom1 年前
cuda编程·matmul·矩阵乘
基于矩阵乘的CUDA编程优化过程背景:网上很多关于矩阵乘的编程优化思路,本着看理论分析万遍,不如实际代码写一遍的想法,大概过一下优化思路。
极智视界1 年前
cuda·device·cuda编程·constexpr·host
记录 | CUDA编程中用constexpr替代__host__&__device__比如用 __host__ & __device__ 的情况如下:则可以用 constexpr 来替代 __host__ __device,替代后的代码如下:
colourmind2 年前
c++·深度学习·cuda编程
CUDA编程二、C++和cuda混合编程的一些基础知识点目录一、C++运行过程1、C++编译过程2、代码运行示例单文件多文件a、编译所有cpp文件,但是不链接