技术栈
cuda编程
AI小白龙
1 个月前
pytorch
·
python
·
gpu
·
cuda编程
使用torch.compile进行CPU优化
在PyTorch中,使用torch.compile可以自动地将模型转换成优化的执行代码,这对于提升模型在CPU上的运行效率尤其有用。torch.compile是基于TorchDynamo实现的,它可以将Python代码转换为高效的TorchScript代码。这对于那些在CPU上运行的大型模型尤其有益,因为它可以减少运行时开销并提高整体性能。
Briwisdom
1 年前
cuda编程
·
matmul
·
矩阵乘
基于矩阵乘的CUDA编程优化过程
背景:网上很多关于矩阵乘的编程优化思路,本着看理论分析万遍,不如实际代码写一遍的想法,大概过一下优化思路。
极智视界
1 年前
cuda
·
device
·
cuda编程
·
constexpr
·
host
记录 | CUDA编程中用constexpr替代__host__&__device__
比如用 __host__ & __device__ 的情况如下:则可以用 constexpr 来替代 __host__ __device,替代后的代码如下:
colourmind
1 年前
c++
·
深度学习
·
cuda编程
CUDA编程二、C++和cuda混合编程的一些基础知识点
目录一、C++运行过程1、C++编译过程2、代码运行示例单文件多文件a、编译所有cpp文件,但是不链接