cuda

碧海潮生_CC8 小时前
笔记·cuda
【CUDA笔记】01-入门简介本系列主要是对与 Cuda 入门官方课程的整理与小结。 在开始这门课程之前,已经有大概认知,通过 Cuda, 可以利用 GPU 来加速特定计算任务 。 本节课的主要目的 是了解 Cuda 程序的一些基础概念,以及如何编写第一个入门的 Cuda 程序 课程主页: https://www.olcf.ornl.gov/cuda-training-series/
喆星时瑜3 天前
python·cuda·comfyui
关于 ComfyUI 的 Windows 本地部署系统环境教程(详细讲解Windows 10/11、NVIDIA GPU、Python、PyTorch环境等)在本地部署 ComfyUI 时,确保 Python、PyTorch、CUDA 等组件的版本能完美匹配,这对避免安装报错和保证稳定运行至关重要。 以下内容是整合了一份核心组件的版本适配对照表,并配上不同显卡的配置建议,希望能帮助你顺利部署。
安全二次方security²7 天前
nvidia·cuda·c/c++·device·cuda编程·architecture·compute unified
CUDA C++编程指南(1)——简介AI-安全-功耗 CUBE 博客目录导读目录1. 简介1.1. 使用GPU的优势1.2. CUDA®:通用并行计算平台与编程模型
千年奇葩11 天前
c++·人工智能·unity·游戏引擎·cuda
Unity性能优化之:利用CUDA加速Unity实现大规模并行计算。从环境搭建到实战案例在游戏开发和实时图形应用中,复杂的物理模拟、大规模粒子运算或 AI 推理往往受限于 CPU 性能, 导致帧率下降或效果简化。尤其是在机器人模拟仿真,自动规划、依赖物理环境的进化算法等高端领域,仅仅依靠Cpu算力是远远不够看的。NVIDIA CUDA 技术通过 GPU 并行计算能力,可显著提升计算密集型任务的效率。对于可并行化的任务(如向量 / 矩阵运算),性能可达到 CPU 的 10-100 倍。
ouliten12 天前
笔记·cuda
cuda编程笔记(34)-- 内存访问控制与缓存提示在cuda编程笔记(23)-- __threadfence()和__ldg()-CSDN博客,提到了__ldg,本文将cuda里内存访问的相关api都介绍一下
ouliten13 天前
笔记·cuda
cuda编程笔记(33)--Thrust库的使用Thrust 是一个类似 C++ STL(标准模板库)的并行算法库:提供类似 std::vector, std::sort, std::reduce 等容器与算法;
安全二次方security²16 天前
gdb·nvidia·cuda·调试·cuda-gdb·autostep·mpi cuda
CUDA-GDB(11)——调试示例演练安全二次方(security²)博客目录导读目录11.1. 示例:bitreverse11.1.1. 代码演练
babytiger19 天前
windows·wsl·cuda
windows中用wsl使用cudawindows11 安装WSL2全流程_wsl2安装-CSDN博客lhttps://blog.csdn.net/u011119817/article/details/130745551?fromshare=blogdetail&sharetype=blogdetail&sharerId=130745551&sharerefer=PC&sharesource=babytiger&sharefrom=from_link
新手村领路人21 天前
python·opencv·cuda
opencv gpu cuda python c++版本测试代码环境:opencv4.10 显卡3060Ti编译好后,测试代码python opencv cuda测试代码
Eloudy22 天前
cuda
cudaMemcpy(Ah, Ad, 1024, D2H) 的执行细节cudaMemcpy(Ah, Ad, 1024, D2H); 这个 Ah是cpu 侧的虚拟地址 cpuva。
ouliten22 天前
笔记·深度学习·cuda
cuda编程笔记(29)-- CUDA GraphCUDA Graph 是目前 NVIDIA 官方推荐的训练加速技术之一,它能显著降低 CPU 启动开销,提高训练循环中 kernel 启动效率与吞吐量。
KIDGINBROOK23 天前
attention·cuda
分布式与长序列attention下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
BothSavage23 天前
linux·服务器·ubuntu·gpu·nvidia·cuda·nvcc
Ubuntu-8卡H20服务器升级nvidia驱动+cuda版本看到qwen3-vl-30b开源了,想测试下性能+资源占用,奈何部署sglang需要12.7版本的cuda?我目前手里的H20的服务器cuda版本最高只支持12.2所以需要升级驱动以及cuda版本,随使用官方.run还有apt install xx进行升级。之前用的火山官方ubuntu镜像,默认驱动535,后升级驱动550,570,580后,cuda也对应升级后,cuda都无法使用无论是在conda中,还是直接在宿主机上测试,最后发现是nvidia-fabricmanager问题,NVIDIA-Fabri
ouliten25 天前
笔记·cuda
cuda编程笔记(28)-- cudaMemcpyPeer 与 P2P 访问机制cudaMemcpyPeer() 是 CUDA 提供的一个 跨 GPU 内存拷贝函数,可以直接在两个不同 GPU 设备之间传输数据,而不需要中转到主机内存。
ulimate_1 个月前
树莓派·cuda
树莓派:树莓派能安装CUDA吗不能根据现有信息,**树莓派(Raspberry Pi)不能安装或使用NVIDIA CUDA**。主要原因如下:
zhy295631 个月前
人工智能·tensorrt·cuda·开发环境·cudnn
【DNN】基础环境搭建实现CUDA,CUDNN与TensorRT各个版本之间的依赖关系尤为重要,但是在不同的工作环境下可能需要使用不同的版本匹配。本文主要通过软连接的方式实现各个版本之间的自由搭配。
ouliten1 个月前
笔记·cuda
cuda编程笔记(27)-- NVTX的使用NVTX用于在代码中插入 标记(markers) 和 范围(ranges),方便在 Nsight Systems / Nsight Compute / Visual Profiler 等工具中可视化性能分析信息。
ouliten1 个月前
笔记·cuda
cuda编程笔记(24)-- Global Memory之间的拷贝如果要在核函数内做比较大规模一点的数组拷贝,应该怎么做呢?最简单的想法自然是每个线程拷贝对应的下标这并没有什么问题,但是是否能够加速呢?
小脑斧要动脑1 个月前
cuda
【CUDA】【WIP】环境安装-wsl2下cuda安装开发环境:设备名称 LAPTOP-C4PF3AQ9 处理器 13th Gen Intel® Core™ i9-13900HX 2.20 GHz 机带 RAM 16.0 GB (15.7 GB 可用) 设备 ID 174C475A-E864-4A13-984D-B2B6C9F8A7ED 产品 ID 00342-30989-83844-AAOEM 系统类型 64 位操作系统, 基于 x64 的处理器 笔和触控 没有可用于此显示器的笔或触控输入
扫地的小何尚1 个月前
人工智能·语言模型·llm·gpu·量子计算·nvidia·cuda
深度解析 CUDA-QX 0.4 加速 QEC 与求解器库在通往大规模、容错量子超级计算机的征程中,量子纠错(Quantum Error Correction, QEC)既是最大的机遇,也是最严峻的挑战 。它将当今的含噪中等规模量子(Noisy Intermediate-Scale Quantum, NISQ)设备与未来的强大计算引擎区分开来。克服这一挑战需要的不仅仅是渐进式的改进,而是一场范式革命——从零散、受限于 CPU 的研究工具,转向一个紧密集成、大规模并行、端到端的开发平台。