cuda

新手村领路人21 小时前
python·opencv·cuda
opencv gpu cuda python c++版本测试代码环境:opencv4.10 显卡3060Ti编译好后,测试代码python opencv cuda测试代码
Eloudy2 天前
cuda
cudaMemcpy(Ah, Ad, 1024, D2H) 的执行细节cudaMemcpy(Ah, Ad, 1024, D2H); 这个 Ah是cpu 侧的虚拟地址 cpuva。
ouliten2 天前
笔记·深度学习·cuda
cuda编程笔记(29)-- CUDA GraphCUDA Graph 是目前 NVIDIA 官方推荐的训练加速技术之一,它能显著降低 CPU 启动开销,提高训练循环中 kernel 启动效率与吞吐量。
KIDGINBROOK3 天前
attention·cuda
分布式与长序列attention下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
BothSavage3 天前
linux·服务器·ubuntu·gpu·nvidia·cuda·nvcc
Ubuntu-8卡H20服务器升级nvidia驱动+cuda版本看到qwen3-vl-30b开源了,想测试下性能+资源占用,奈何部署sglang需要12.7版本的cuda?我目前手里的H20的服务器cuda版本最高只支持12.2所以需要升级驱动以及cuda版本,随使用官方.run还有apt install xx进行升级。之前用的火山官方ubuntu镜像,默认驱动535,后升级驱动550,570,580后,cuda也对应升级后,cuda都无法使用无论是在conda中,还是直接在宿主机上测试,最后发现是nvidia-fabricmanager问题,NVIDIA-Fabri
ouliten5 天前
笔记·cuda
cuda编程笔记(28)-- cudaMemcpyPeer 与 P2P 访问机制cudaMemcpyPeer() 是 CUDA 提供的一个 跨 GPU 内存拷贝函数,可以直接在两个不同 GPU 设备之间传输数据,而不需要中转到主机内存。
ulimate_6 天前
树莓派·cuda
树莓派:树莓派能安装CUDA吗不能根据现有信息,**树莓派(Raspberry Pi)不能安装或使用NVIDIA CUDA**。主要原因如下:
zhy295636 天前
人工智能·tensorrt·cuda·开发环境·cudnn
【DNN】基础环境搭建实现CUDA,CUDNN与TensorRT各个版本之间的依赖关系尤为重要,但是在不同的工作环境下可能需要使用不同的版本匹配。本文主要通过软连接的方式实现各个版本之间的自由搭配。
ouliten8 天前
笔记·cuda
cuda编程笔记(27)-- NVTX的使用NVTX用于在代码中插入 标记(markers) 和 范围(ranges),方便在 Nsight Systems / Nsight Compute / Visual Profiler 等工具中可视化性能分析信息。
ouliten16 天前
笔记·cuda
cuda编程笔记(24)-- Global Memory之间的拷贝如果要在核函数内做比较大规模一点的数组拷贝,应该怎么做呢?最简单的想法自然是每个线程拷贝对应的下标这并没有什么问题,但是是否能够加速呢?
小脑斧要动脑18 天前
cuda
【CUDA】【WIP】环境安装-wsl2下cuda安装开发环境:设备名称 LAPTOP-C4PF3AQ9 处理器 13th Gen Intel® Core™ i9-13900HX 2.20 GHz 机带 RAM 16.0 GB (15.7 GB 可用) 设备 ID 174C475A-E864-4A13-984D-B2B6C9F8A7ED 产品 ID 00342-30989-83844-AAOEM 系统类型 64 位操作系统, 基于 x64 的处理器 笔和触控 没有可用于此显示器的笔或触控输入
扫地的小何尚24 天前
人工智能·语言模型·llm·gpu·量子计算·nvidia·cuda
深度解析 CUDA-QX 0.4 加速 QEC 与求解器库在通往大规模、容错量子超级计算机的征程中,量子纠错(Quantum Error Correction, QEC)既是最大的机遇,也是最严峻的挑战 。它将当今的含噪中等规模量子(Noisy Intermediate-Scale Quantum, NISQ)设备与未来的强大计算引擎区分开来。克服这一挑战需要的不仅仅是渐进式的改进,而是一场范式革命——从零散、受限于 CPU 的研究工具,转向一个紧密集成、大规模并行、端到端的开发平台。
笑脸惹桃花1 个月前
深度学习·算法·yolo·torch·cuda
50系显卡训练深度学习YOLO等算法报错的解决方法YOLO训练时报错NVIDIA GeForce RTX 5070 Ti with CUDA capability sm_120 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_50 sm_60 sm_61 sm_70 sm_75 sm_80 sm_86 sm_90. IF you want to use the NVIDIA
weiwei228442 个月前
gpu·cuda·nsight compute
NVIDIA Kernel级性能分析工具Nsight Compute入门详解仍以之前的vectorAdd程序为分析目标,在新建的工程中只指定编译好的可执行文件及其输出report文件,其他部分都保持默认,然后直接点击“Launch”进行分析。
山烛2 个月前
人工智能·pytorch·python·深度学习·cuda
深度学习:CUDA、PyTorch下载安装对计算机而言,中央处理器 CPU 是主板上的芯片,图形处理器 GPU 是显卡上的芯片。每台计算机必有主板,但少数计算机可能没有显卡。显卡可以用来加速深度学习的运算速度(GPU 比 CPU 快 10-100 倍)。
伊织code2 个月前
pytorch·api·cpu·cuda·微分·autograd
PyTorch API 2torch.autograd 提供了实现任意标量值函数自动微分的类和函数。只需对现有代码进行最小改动——您只需要通过requires_grad=True关键字声明需要计算梯度的Tensor即可。目前,我们仅支持浮点型Tensor(包括half、float、double和bfloat16)和复数型Tensor(cfloat、cdouble)的自动微分功能。
探模之翼2 个月前
cuda·wsl2
利用 Windows GPU 在 WSL2 中安装并配置 CUDA Toolkit
weiwei228442 个月前
gpu·cuda·nsight systems
NVIDIA系统级性能分析工具Nsight Systems入门详解Nsight Systems(简称nsys)是NVIDIA推出的一款系统级性能分析工具,主要用于优化 GPU 加速应用程序(尤其是基于 CUDA、OpenCL、DirectX、Vulkan 等 API 开发的程序)的性能,帮助开发者定位和解决计算、内存、通信等环节的瓶颈。所谓系统层面的分析工具,除了分析GPU的使用,还要分析CPU的使用,以及CPU和GPU的交互情况,可以捕捉CPU和GPU的各种事件,发现CPU和GPU上的等待以及不必要的同步,可以通过Nsight systems将任务均匀的分配到CPU和
charlee442 个月前
大模型·cuda·qwen·量化
在本地部署Qwen大语言模型全过程总结大语言模型要进行本地部署,先得选择一个与本地环境适配的模型。比如笔者这里选择的是Qwen1.5-7B-Chat,那么可以计算一下需要的存储空间大小:
weiwei228442 个月前
gpu·cuda
CUDA编程初探1993年:NVIDIA 成立,初期专注于图形芯片设计。 1997年:发布 RIVA 128,首款支持 DirectX 5 和 OpenGL 1.1 的显卡,采用 128-bit 架构,奠定早期 3D 加速基础。 1999年:推出 GeForce 256,首次提出“GPU”概念,集成硬件变换与光照(T&L)引擎,不再依赖 CPU 处理图形数据,性能较前代提升 10 倍。