技术栈
cuda
碧海潮生_CC
8 小时前
笔记
·
cuda
【CUDA笔记】01-入门简介
本系列主要是对与 Cuda 入门官方课程的整理与小结。 在开始这门课程之前,已经有大概认知,通过 Cuda, 可以利用 GPU 来加速特定计算任务 。 本节课的主要目的 是了解 Cuda 程序的一些基础概念,以及如何编写第一个入门的 Cuda 程序 课程主页: https://www.olcf.ornl.gov/cuda-training-series/
喆星时瑜
3 天前
python
·
cuda
·
comfyui
关于 ComfyUI 的 Windows 本地部署系统环境教程(详细讲解Windows 10/11、NVIDIA GPU、Python、PyTorch环境等)
在本地部署 ComfyUI 时,确保 Python、PyTorch、CUDA 等组件的版本能完美匹配,这对避免安装报错和保证稳定运行至关重要。 以下内容是整合了一份核心组件的版本适配对照表,并配上不同显卡的配置建议,希望能帮助你顺利部署。
安全二次方security²
7 天前
nvidia
·
cuda
·
c/c++
·
device
·
cuda编程
·
architecture
·
compute unified
CUDA C++编程指南(1)——简介
AI-安全-功耗 CUBE 博客目录导读目录1. 简介1.1. 使用GPU的优势1.2. CUDA®:通用并行计算平台与编程模型
千年奇葩
11 天前
c++
·
人工智能
·
unity
·
游戏引擎
·
cuda
Unity性能优化之:利用CUDA加速Unity实现大规模并行计算。从环境搭建到实战案例
在游戏开发和实时图形应用中,复杂的物理模拟、大规模粒子运算或 AI 推理往往受限于 CPU 性能, 导致帧率下降或效果简化。尤其是在机器人模拟仿真,自动规划、依赖物理环境的进化算法等高端领域,仅仅依靠Cpu算力是远远不够看的。NVIDIA CUDA 技术通过 GPU 并行计算能力,可显著提升计算密集型任务的效率。对于可并行化的任务(如向量 / 矩阵运算),性能可达到 CPU 的 10-100 倍。
ouliten
12 天前
笔记
·
cuda
cuda编程笔记(34)-- 内存访问控制与缓存提示
在cuda编程笔记(23)-- __threadfence()和__ldg()-CSDN博客,提到了__ldg,本文将cuda里内存访问的相关api都介绍一下
ouliten
13 天前
笔记
·
cuda
cuda编程笔记(33)--Thrust库的使用
Thrust 是一个类似 C++ STL(标准模板库)的并行算法库:提供类似 std::vector, std::sort, std::reduce 等容器与算法;
安全二次方security²
16 天前
gdb
·
nvidia
·
cuda
·
调试
·
cuda-gdb
·
autostep
·
mpi cuda
CUDA-GDB(11)——调试示例演练
安全二次方(security²)博客目录导读目录11.1. 示例:bitreverse11.1.1. 代码演练
babytiger
19 天前
windows
·
wsl
·
cuda
windows中用wsl使用cuda
windows11 安装WSL2全流程_wsl2安装-CSDN博客lhttps://blog.csdn.net/u011119817/article/details/130745551?fromshare=blogdetail&sharetype=blogdetail&sharerId=130745551&sharerefer=PC&sharesource=babytiger&sharefrom=from_link
新手村领路人
21 天前
python
·
opencv
·
cuda
opencv gpu cuda python c++版本测试代码
环境:opencv4.10 显卡3060Ti编译好后,测试代码python opencv cuda测试代码
Eloudy
22 天前
cuda
cudaMemcpy(Ah, Ad, 1024, D2H) 的执行细节
cudaMemcpy(Ah, Ad, 1024, D2H); 这个 Ah是cpu 侧的虚拟地址 cpuva。
ouliten
22 天前
笔记
·
深度学习
·
cuda
cuda编程笔记(29)-- CUDA Graph
CUDA Graph 是目前 NVIDIA 官方推荐的训练加速技术之一,它能显著降低 CPU 启动开销,提高训练循环中 kernel 启动效率与吞吐量。
KIDGINBROOK
23 天前
attention
·
cuda
分布式与长序列attention
下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
BothSavage
23 天前
linux
·
服务器
·
ubuntu
·
gpu
·
nvidia
·
cuda
·
nvcc
Ubuntu-8卡H20服务器升级nvidia驱动+cuda版本
看到qwen3-vl-30b开源了,想测试下性能+资源占用,奈何部署sglang需要12.7版本的cuda?我目前手里的H20的服务器cuda版本最高只支持12.2所以需要升级驱动以及cuda版本,随使用官方.run还有apt install xx进行升级。之前用的火山官方ubuntu镜像,默认驱动535,后升级驱动550,570,580后,cuda也对应升级后,cuda都无法使用无论是在conda中,还是直接在宿主机上测试,最后发现是nvidia-fabricmanager问题,NVIDIA-Fabri
ouliten
25 天前
笔记
·
cuda
cuda编程笔记(28)-- cudaMemcpyPeer 与 P2P 访问机制
cudaMemcpyPeer() 是 CUDA 提供的一个 跨 GPU 内存拷贝函数,可以直接在两个不同 GPU 设备之间传输数据,而不需要中转到主机内存。
ulimate_
1 个月前
树莓派
·
cuda
树莓派:树莓派能安装CUDA吗
不能根据现有信息,**树莓派(Raspberry Pi)不能安装或使用NVIDIA CUDA**。主要原因如下:
zhy29563
1 个月前
人工智能
·
tensorrt
·
cuda
·
开发环境
·
cudnn
【DNN】基础环境搭建
实现CUDA,CUDNN与TensorRT各个版本之间的依赖关系尤为重要,但是在不同的工作环境下可能需要使用不同的版本匹配。本文主要通过软连接的方式实现各个版本之间的自由搭配。
ouliten
1 个月前
笔记
·
cuda
cuda编程笔记(27)-- NVTX的使用
NVTX用于在代码中插入 标记(markers) 和 范围(ranges),方便在 Nsight Systems / Nsight Compute / Visual Profiler 等工具中可视化性能分析信息。
ouliten
1 个月前
笔记
·
cuda
cuda编程笔记(24)-- Global Memory之间的拷贝
如果要在核函数内做比较大规模一点的数组拷贝,应该怎么做呢?最简单的想法自然是每个线程拷贝对应的下标这并没有什么问题,但是是否能够加速呢?
小脑斧要动脑
1 个月前
cuda
【CUDA】【WIP】环境安装-wsl2下cuda安装
开发环境:设备名称 LAPTOP-C4PF3AQ9 处理器 13th Gen Intel® Core™ i9-13900HX 2.20 GHz 机带 RAM 16.0 GB (15.7 GB 可用) 设备 ID 174C475A-E864-4A13-984D-B2B6C9F8A7ED 产品 ID 00342-30989-83844-AAOEM 系统类型 64 位操作系统, 基于 x64 的处理器 笔和触控 没有可用于此显示器的笔或触控输入
扫地的小何尚
1 个月前
人工智能
·
语言模型
·
llm
·
gpu
·
量子计算
·
nvidia
·
cuda
深度解析 CUDA-QX 0.4 加速 QEC 与求解器库
在通往大规模、容错量子超级计算机的征程中,量子纠错(Quantum Error Correction, QEC)既是最大的机遇,也是最严峻的挑战 。它将当今的含噪中等规模量子(Noisy Intermediate-Scale Quantum, NISQ)设备与未来的强大计算引擎区分开来。克服这一挑战需要的不仅仅是渐进式的改进,而是一场范式革命——从零散、受限于 CPU 的研究工具,转向一个紧密集成、大规模并行、端到端的开发平台。