技术栈
cuda
William.csj
3 天前
pytorch
·
cuda
Pytorch/CUDA——flash-attn 库编译的 gcc 版本问题
flash-attn 是一个高性能 CUDA 加速库,编译时 对 gcc(或 g++)版本是有严格要求的,因为它需要和 NVIDIA CUDA Toolkit 的版本匹配。 如果 gcc 太新或太旧,nvcc 会直接报错 或编译出来的不兼容。
野蛮人6号
4 天前
cuda
如何查看自己电脑的CUDA版本?
在搜索栏输入命令提示符打开输入图片中的两个是CUDA版本和显卡的信息
SHIPKING393
16 天前
人工智能
·
深度学习
·
cuda
·
cudnn
【CUDA&cuDNN安装】深度学习基础环境搭建
目录前言一、检查CUDA 版本必须与电脑的显卡型号匹配1.1 确定你的显卡型号1.1.1【可能遇到错误】
咩咩大主教
20 天前
c++
·
vscode
·
cmake
·
visual studio
·
cuda
·
cpp
·
cuda c++
2025最新版使用VSCode和CMake图形化编译调试Cuda C++程序(保姆级教学)
VSCode+CMake简直就是C++程序开发者的福音,无论是进行Qt开发,音视频开发,后端程序开发,Cuda开发,CMake都是神一样的存在。
量化投资和人工智能
21 天前
c++
·
人工智能
·
python
·
机器学习
·
云计算
·
cuda
【CUDA编程】OptionalCUDAGuard详解
OptionalCUDAGuard 是 PyTorch 的 CUDA 工具库(c10/cuda)中用于安全管理 GPU 设备上下文的 RAII(Resource Acquisition Is Initialization)类。其核心作用是在特定代码块中临时切换 GPU 设备,并在退出作用域时自动恢复原设备状态,尤其适用于设备可能为“未指定”(nullopt)的场景。以下从作用、原理、用法和典型场景详细解析:
weiwei22844
23 天前
gpu
·
vs2019
·
cuda
VS2019+CUDA12.5入门
通常先装vs后装cuda,cuda会自动集成到vs中。而如果先装cuda,后装vs则需要进行额外的配置。
爱串门的小马驹
1 个月前
vscode
·
gpu
·
cuda
VScode编译调试debug,gpu的cuda程序,Nsight
进行下面操作的前提是,我们的环境已经能跑简单的CUDA程序了。注意:名称一定是main.cu,和上面的json文件中的main对应。
阿巴阿阿巴巴巴巴
1 个月前
人工智能
·
pytorch
·
python
·
深度学习
·
jupyter
·
cuda
【深度学习相关安装及配环境】Anaconda搭建虚拟环境并安装CUDA、cuDVV和对应版本的Pytorch,并在jupyter notebook上部署
当前cuda版本为12.8 也可以在 桌面——打开NVIDIA控制面板——系统信息——组件——3D设置 查看cuda版本,上面直接输命令行比较方便
r0ysue_
1 个月前
cuda
·
驱动
·
5060ti
5060显卡驱动PyCUDA开发环境搭建
本文手把手讲解了RTX5060ti显卡从上手尝试折腾,到在最新Ubuntu LTS版本上CUDA开发环境搭建成功的详细流程。
易·木
1 个月前
visual studio
·
cuda
在Visual Studio中进行cuda编程
首先下载与CUDA Toolkit匹配的Visual Studio版本比如我的CUDA Toolkit版本是12.6,那么我可以使用2022的Visual Studio。
weixin_42849849
2 个月前
c++
·
cuda
NVC++ 介绍与使用指南
NVC++ 是 NVIDIA 提供的基于 LLVM 的 C++ 编译器,专为 GPU 加速计算设计,支持最新的 C++ 标准并针对 NVIDIA GPU 进行了优化。
秣厉科技
2 个月前
opencv
·
labview
·
dnn
·
cuda
·
秣厉
【秣厉科技】LabVIEW工具包——OpenCV 教程(21):CUDA 加速方案
安装配置 CUDA + cuDNN 环境 参考教程:【番外】01:Windows 安装配置 CUDA 和 cuDNN 教程
csdnzzt
2 个月前
性能优化
·
矩阵
·
cuda
CUDA编程——性能优化基本技巧
本文主要介绍下面三种技巧:先摆出一个知识点,一般来说,Compute-bound 的 Kernel 不太常见,常见的 Compute-bound 的 Kernel 可能只有矩阵乘法与卷积核比较大的卷积,大多数都是Memory-bound,所以下面我们主要关注如何优化访存。
Milton
2 个月前
cuda
·
3d gaussian splatting
3D Gaussian Splatting 查看工具 splatviz
3D Gaussian Splatting 仓库自带的 SIBR Viewer 运行对显卡有要求, 需要 CUDA_ARCHITECTURE >= 7.x, 在 RTX 4060Ti 上可以运行, 但是在 P104-100 上就会提示"Sorry, need at least compute capability 7.0+!"后退出. 因此需要寻找一个兼容性更好的查看工具.
PLUS_WAVE
2 个月前
服务器
·
c++
·
bug
·
环境
·
编译
·
cuda
·
ld
【CUDA 编译 bug】ld: cannot find -lcudart
我们使用 Conda 安装 pytorch 和 CUDA 环境之后,要用 Conda 的CUDA环境进行某个库编译时,出现了bug:
程序员非鱼
3 个月前
人工智能
·
深度学习
·
神经网络
·
cuda
(2025最新版)CUDA安装及环境配置
学习深度学习的小伙伴在配置环境的时候必不可少的一件事就是安装CUDA,在这个过程中也是容易踩很多坑,所以这里写一篇教程来帮助新入门的小伙伴快速安装CUDA,减少踩坑。
停走的风
3 个月前
学习
·
cuda
·
jetson
jetson orin nano学习(torch+OpenCV+yolov5+)
指令:nvidia-smi -h 帮助命令 sudo jtop --查看nvidia的gpu状态Tip:教程下载的pytorth,cuda,cudnn版本不一定是你项目符合的,要提前想好
musk1212
3 个月前
yolo
·
cuda
·
wsl2
YOLO环境搭建,win11+wsl2+ubuntu24+cuda12.6+idea
提示:环境搭建提示:版本 win11 wsl2 ubuntu24 idea 2024子系统跳过,参考之前笔记 win11 设置 wsl2 ubuntu
哦豁灬
3 个月前
学习
·
cuda
CUDA 学习(3)——CUDA 初步实践
CUDA 中提供了 blockIdx, threadIdx, blockDim, GridDim来定位发起 thread,下面发起 1 个 grid,里面有 2 个 block,每个 block 里有 5 个 threads。
扫地的小何尚
3 个月前
c++
·
人工智能
·
深度学习
·
gpu
·
nvidia
·
cuda
NVIDIA TensorRT 深度学习推理加速引擎详解
在当今人工智能和深度学习快速发展的时代,模型推理性能已成为实际应用中的关键瓶颈。无论是需要实时响应的自动驾驶系统,还是要处理海量数据的推荐引擎,亦或是资源受限的边缘设备上的AI应用,都对推理速度、延迟和能耗提出了严苛的要求。NVIDIA TensorRT作为一个高性能的深度学习推理优化器和运行时环境,正是为解决这些挑战而生。