技术栈

cuda编程

AI小白龙
3 个月前
pytorch·python·gpu·cuda编程
使用torch.compile进行CPU优化在PyTorch中,使用torch.compile可以自动地将模型转换成优化的执行代码,这对于提升模型在CPU上的运行效率尤其有用。torch.compile是基于TorchDynamo实现的,它可以将Python代码转换为高效的TorchScript代码。这对于那些在CPU上运行的大型模型尤其有益,因为它可以减少运行时开销并提高整体性能。
Briwisdom
1 年前
cuda编程·matmul·矩阵乘
基于矩阵乘的CUDA编程优化过程背景:网上很多关于矩阵乘的编程优化思路,本着看理论分析万遍,不如实际代码写一遍的想法,大概过一下优化思路。
极智视界
1 年前
cuda·device·cuda编程·constexpr·host
记录 | CUDA编程中用constexpr替代__host__&__device__比如用 __host__ & __device__ 的情况如下:则可以用 constexpr 来替代 __host__ __device,替代后的代码如下:
colourmind
1 年前
c++·深度学习·cuda编程
CUDA编程二、C++和cuda混合编程的一些基础知识点目录一、C++运行过程1、C++编译过程2、代码运行示例单文件多文件a、编译所有cpp文件,但是不链接