cuda

碧海潮生_CC2 天前
笔记·cuda
【CUDA笔记】04 CUDA 归约, 原子操作,Warp 交换前几节处理的问题, 最终一个线程都会对应输出一个结果。今天将讨论的问题, 多个线程将会对应输出一个,或者少于启动线程数量的结果, 称之为 归约(Reduction)。
fpcc6 天前
c++·cuda
并行编程实战——CUDA编程的流的优先级优先级在计算机编程中可谓是无所不在,尽管很多开发者没有什么机会直接操作优先级编程,但实际上听得到地方却非常多。从操作系统的进程优先级到数据队列中处理的优先级,甚至到排队策略的优先级等等。可以说到处都有优先级的影子。 优先级很好理解,就是谁先谁后。举个大家非常熟悉的例子,去银行业务大厅办业务,普通的优先级就是先来先服务;可如果来一个VIP,那就是人家直接越过所有人,先行办理业务。这就是优先级的一个典型的例子。
碧海潮生_CC7 天前
笔记·架构·cuda
【CUDA笔记】03 CUDA GPU 架构与一般的程序优化思路(下)前一节主要从 GPU 的结构方面介绍 Cuda 程序的优化思路, 这一节将主要从 内存结构方面介绍优化思路。
中医正骨葛大夫9 天前
pytorch·深度学习·pycharm·软件安装·cuda·anaconda·配置环境
一文解决如何在Pycharm中创建cuda深度学习环境?想必大家都知道,目前深度学习最好的框架便是用Python编写的PyTorch,而Pycharm作为最受欢迎的Python IDE,广泛被大家用来训练模型。因此本文介绍如何利用Anaconda这个软件来为Pycharm配置环境。
lvxiangyu1113 天前
wsl·cuda·opengl
wsl2 ubuntu24 opengl 无法使用nvidia显卡 解决方法记录我的机器是 amd 7950x + rtx 5070ti。显卡Driver Version: 581.80 CUDA Version: 13.0
李昊哲小课14 天前
人工智能·pytorch·python·cuda·cudnn
wsl ubuntu24.04 cuda13 cudnn9 pytorch 显卡加速在WSLUbuntu中部署Python3.12、CUDAToolkit和cuDNN的官方下载页面及步骤如下:
wanzhong233315 天前
深度学习·gpu·cuda·高性能计算
CUDA学习2-CPU和GPU的性能优化latency:完成一个指令的耗时memory latency:从memory获取内存数据等待的时间,是CPU的优化方向
碧海潮生_CC21 天前
笔记·cuda
【CUDA笔记】01-入门简介本系列主要是对与 Cuda 入门官方课程的整理与小结。 在开始这门课程之前,已经有大概认知,通过 Cuda, 可以利用 GPU 来加速特定计算任务 。 本节课的主要目的 是了解 Cuda 程序的一些基础概念,以及如何编写第一个入门的 Cuda 程序 课程主页: https://www.olcf.ornl.gov/cuda-training-series/
喆星时瑜24 天前
python·cuda·comfyui
关于 ComfyUI 的 Windows 本地部署系统环境教程(详细讲解Windows 10/11、NVIDIA GPU、Python、PyTorch环境等)在本地部署 ComfyUI 时,确保 Python、PyTorch、CUDA 等组件的版本能完美匹配,这对避免安装报错和保证稳定运行至关重要。 以下内容是整合了一份核心组件的版本适配对照表,并配上不同显卡的配置建议,希望能帮助你顺利部署。
安全二次方security²1 个月前
nvidia·cuda·c/c++·device·cuda编程·architecture·compute unified
CUDA C++编程指南(1)——简介AI-安全-功耗 CUBE 博客目录导读目录1. 简介1.1. 使用GPU的优势1.2. CUDA®:通用并行计算平台与编程模型
千年奇葩1 个月前
c++·人工智能·unity·游戏引擎·cuda
Unity性能优化之:利用CUDA加速Unity实现大规模并行计算。从环境搭建到实战案例在游戏开发和实时图形应用中,复杂的物理模拟、大规模粒子运算或 AI 推理往往受限于 CPU 性能, 导致帧率下降或效果简化。尤其是在机器人模拟仿真,自动规划、依赖物理环境的进化算法等高端领域,仅仅依靠Cpu算力是远远不够看的。NVIDIA CUDA 技术通过 GPU 并行计算能力,可显著提升计算密集型任务的效率。对于可并行化的任务(如向量 / 矩阵运算),性能可达到 CPU 的 10-100 倍。
ouliten1 个月前
笔记·cuda
cuda编程笔记(34)-- 内存访问控制与缓存提示在cuda编程笔记(23)-- __threadfence()和__ldg()-CSDN博客,提到了__ldg,本文将cuda里内存访问的相关api都介绍一下
ouliten1 个月前
笔记·cuda
cuda编程笔记(33)--Thrust库的使用Thrust 是一个类似 C++ STL(标准模板库)的并行算法库:提供类似 std::vector, std::sort, std::reduce 等容器与算法;
安全二次方security²1 个月前
gdb·nvidia·cuda·调试·cuda-gdb·autostep·mpi cuda
CUDA-GDB(11)——调试示例演练安全二次方(security²)博客目录导读目录11.1. 示例:bitreverse11.1.1. 代码演练
babytiger1 个月前
windows·wsl·cuda
windows中用wsl使用cudawindows11 安装WSL2全流程_wsl2安装-CSDN博客lhttps://blog.csdn.net/u011119817/article/details/130745551?fromshare=blogdetail&sharetype=blogdetail&sharerId=130745551&sharerefer=PC&sharesource=babytiger&sharefrom=from_link
新手村领路人1 个月前
python·opencv·cuda
opencv gpu cuda python c++版本测试代码环境:opencv4.10 显卡3060Ti编译好后,测试代码python opencv cuda测试代码
Eloudy1 个月前
cuda
cudaMemcpy(Ah, Ad, 1024, D2H) 的执行细节cudaMemcpy(Ah, Ad, 1024, D2H); 这个 Ah是cpu 侧的虚拟地址 cpuva。
ouliten1 个月前
笔记·深度学习·cuda
cuda编程笔记(29)-- CUDA GraphCUDA Graph 是目前 NVIDIA 官方推荐的训练加速技术之一,它能显著降低 CPU 启动开销,提高训练循环中 kernel 启动效率与吞吐量。
KIDGINBROOK1 个月前
attention·cuda
分布式与长序列attention下文叙述的分布式场景长序列attention都是基于单卡的flash attention,flash attention之前介绍过,详见: flash attention flash attention 2
BothSavage1 个月前
linux·服务器·ubuntu·gpu·nvidia·cuda·nvcc
Ubuntu-8卡H20服务器升级nvidia驱动+cuda版本看到qwen3-vl-30b开源了,想测试下性能+资源占用,奈何部署sglang需要12.7版本的cuda?我目前手里的H20的服务器cuda版本最高只支持12.2所以需要升级驱动以及cuda版本,随使用官方.run还有apt install xx进行升级。之前用的火山官方ubuntu镜像,默认驱动535,后升级驱动550,570,580后,cuda也对应升级后,cuda都无法使用无论是在conda中,还是直接在宿主机上测试,最后发现是nvidia-fabricmanager问题,NVIDIA-Fabri