技术栈
cuda
新手村领路人
21 小时前
python
·
opencv
·
cuda
opencv gpu cuda python c++版本测试代码
环境:opencv4.10 显卡3060Ti编译好后,测试代码python opencv cuda测试代码
Eloudy
2 天前
cuda
cudaMemcpy(Ah, Ad, 1024, D2H) 的执行细节
cudaMemcpy(Ah, Ad, 1024, D2H); 这个 Ah是cpu 侧的虚拟地址 cpuva。
ouliten
2 天前
笔记
·
深度学习
·
cuda
cuda编程笔记(29)-- CUDA Graph
CUDA Graph 是目前 NVIDIA 官方推荐的训练加速技术之一,它能显著降低 CPU 启动开销,提高训练循环中 kernel 启动效率与吞吐量。
KIDGINBROOK
3 天前
attention
·
cuda
分布式与长序列attention
下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
BothSavage
3 天前
linux
·
服务器
·
ubuntu
·
gpu
·
nvidia
·
cuda
·
nvcc
Ubuntu-8卡H20服务器升级nvidia驱动+cuda版本
看到qwen3-vl-30b开源了,想测试下性能+资源占用,奈何部署sglang需要12.7版本的cuda?我目前手里的H20的服务器cuda版本最高只支持12.2所以需要升级驱动以及cuda版本,随使用官方.run还有apt install xx进行升级。之前用的火山官方ubuntu镜像,默认驱动535,后升级驱动550,570,580后,cuda也对应升级后,cuda都无法使用无论是在conda中,还是直接在宿主机上测试,最后发现是nvidia-fabricmanager问题,NVIDIA-Fabri
ouliten
5 天前
笔记
·
cuda
cuda编程笔记(28)-- cudaMemcpyPeer 与 P2P 访问机制
cudaMemcpyPeer() 是 CUDA 提供的一个 跨 GPU 内存拷贝函数,可以直接在两个不同 GPU 设备之间传输数据,而不需要中转到主机内存。
ulimate_
6 天前
树莓派
·
cuda
树莓派:树莓派能安装CUDA吗
不能根据现有信息,**树莓派(Raspberry Pi)不能安装或使用NVIDIA CUDA**。主要原因如下:
zhy29563
6 天前
人工智能
·
tensorrt
·
cuda
·
开发环境
·
cudnn
【DNN】基础环境搭建
实现CUDA,CUDNN与TensorRT各个版本之间的依赖关系尤为重要,但是在不同的工作环境下可能需要使用不同的版本匹配。本文主要通过软连接的方式实现各个版本之间的自由搭配。
ouliten
8 天前
笔记
·
cuda
cuda编程笔记(27)-- NVTX的使用
NVTX用于在代码中插入 标记(markers) 和 范围(ranges),方便在 Nsight Systems / Nsight Compute / Visual Profiler 等工具中可视化性能分析信息。
ouliten
16 天前
笔记
·
cuda
cuda编程笔记(24)-- Global Memory之间的拷贝
如果要在核函数内做比较大规模一点的数组拷贝,应该怎么做呢?最简单的想法自然是每个线程拷贝对应的下标这并没有什么问题,但是是否能够加速呢?
小脑斧要动脑
18 天前
cuda
【CUDA】【WIP】环境安装-wsl2下cuda安装
开发环境:设备名称 LAPTOP-C4PF3AQ9 处理器 13th Gen Intel® Core™ i9-13900HX 2.20 GHz 机带 RAM 16.0 GB (15.7 GB 可用) 设备 ID 174C475A-E864-4A13-984D-B2B6C9F8A7ED 产品 ID 00342-30989-83844-AAOEM 系统类型 64 位操作系统, 基于 x64 的处理器 笔和触控 没有可用于此显示器的笔或触控输入
扫地的小何尚
24 天前
人工智能
·
语言模型
·
llm
·
gpu
·
量子计算
·
nvidia
·
cuda
深度解析 CUDA-QX 0.4 加速 QEC 与求解器库
在通往大规模、容错量子超级计算机的征程中,量子纠错(Quantum Error Correction, QEC)既是最大的机遇,也是最严峻的挑战 。它将当今的含噪中等规模量子(Noisy Intermediate-Scale Quantum, NISQ)设备与未来的强大计算引擎区分开来。克服这一挑战需要的不仅仅是渐进式的改进,而是一场范式革命——从零散、受限于 CPU 的研究工具,转向一个紧密集成、大规模并行、端到端的开发平台。
笑脸惹桃花
1 个月前
深度学习
·
算法
·
yolo
·
torch
·
cuda
50系显卡训练深度学习YOLO等算法报错的解决方法
YOLO训练时报错NVIDIA GeForce RTX 5070 Ti with CUDA capability sm_120 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_50 sm_60 sm_61 sm_70 sm_75 sm_80 sm_86 sm_90. IF you want to use the NVIDIA
weiwei22844
2 个月前
gpu
·
cuda
·
nsight compute
NVIDIA Kernel级性能分析工具Nsight Compute入门详解
仍以之前的vectorAdd程序为分析目标,在新建的工程中只指定编译好的可执行文件及其输出report文件,其他部分都保持默认,然后直接点击“Launch”进行分析。
山烛
2 个月前
人工智能
·
pytorch
·
python
·
深度学习
·
cuda
深度学习:CUDA、PyTorch下载安装
对计算机而言,中央处理器 CPU 是主板上的芯片,图形处理器 GPU 是显卡上的芯片。每台计算机必有主板,但少数计算机可能没有显卡。显卡可以用来加速深度学习的运算速度(GPU 比 CPU 快 10-100 倍)。
伊织code
2 个月前
pytorch
·
api
·
cpu
·
cuda
·
微分
·
autograd
PyTorch API 2
torch.autograd 提供了实现任意标量值函数自动微分的类和函数。只需对现有代码进行最小改动——您只需要通过requires_grad=True关键字声明需要计算梯度的Tensor即可。目前,我们仅支持浮点型Tensor(包括half、float、double和bfloat16)和复数型Tensor(cfloat、cdouble)的自动微分功能。
探模之翼
2 个月前
cuda
·
wsl2
利用 Windows GPU 在 WSL2 中安装并配置 CUDA Toolkit
weiwei22844
2 个月前
gpu
·
cuda
·
nsight systems
NVIDIA系统级性能分析工具Nsight Systems入门详解
Nsight Systems(简称nsys)是NVIDIA推出的一款系统级性能分析工具,主要用于优化 GPU 加速应用程序(尤其是基于 CUDA、OpenCL、DirectX、Vulkan 等 API 开发的程序)的性能,帮助开发者定位和解决计算、内存、通信等环节的瓶颈。所谓系统层面的分析工具,除了分析GPU的使用,还要分析CPU的使用,以及CPU和GPU的交互情况,可以捕捉CPU和GPU的各种事件,发现CPU和GPU上的等待以及不必要的同步,可以通过Nsight systems将任务均匀的分配到CPU和
charlee44
2 个月前
大模型
·
cuda
·
qwen
·
量化
在本地部署Qwen大语言模型全过程总结
大语言模型要进行本地部署,先得选择一个与本地环境适配的模型。比如笔者这里选择的是Qwen1.5-7B-Chat,那么可以计算一下需要的存储空间大小:
weiwei22844
2 个月前
gpu
·
cuda
CUDA编程初探
1993年:NVIDIA 成立,初期专注于图形芯片设计。 1997年:发布 RIVA 128,首款支持 DirectX 5 和 OpenGL 1.1 的显卡,采用 128-bit 架构,奠定早期 3D 加速基础。 1999年:推出 GeForce 256,首次提出“GPU”概念,集成硬件变换与光照(T&L)引擎,不再依赖 CPU 处理图形数据,性能较前代提升 10 倍。