cuda

wj3055853781 天前
python·cuda·comfyui
课程 5:将官方 LTX-2.3 工作流改造成 GGUF 主模型工作流说明如何使用官方 Image to Video (LTX-2.3) 模板作为基础,并将主模型替换为 Sulphur-2 GGUF。
fpcc2 天前
c++·cuda
并行编程实战——CUDA编程的打印输出在前面的CUDA调试中给出了很多种方法,重点介绍了使用IDE相关的调试。但实际在某些情况下,不少开发者还是更青睐直接打印数据结果。特别是可能无法使用IDE的场景下,这种打印可能起着重要的作用。 那么CUDA编程中的打印数据和主机应用中的普通编程打印有什么不一样呢?本文将对其进行重点的分析。
(initial)4 天前
人工智能·cuda
B-05. Unified Memory:Page Fault、Prefetch、Advise 的性能边在 B-01 到 B-04,我们一直在优化“数据已经在 GPU 这边以后”的访问效率:合并访问、共享内存、寄存器、L2 驻留。 但工程里还有一个更早的问题:数据到底何时、以什么粒度、由谁搬到 GPU。 Unified Memory(UM)把这件事交给运行时自动处理,开发体验很好;性能上却常出现“能跑但慢、偶发抖动、首轮异常慢”的现象。
zhoupenghui1687 天前
人工智能·pytorch·python·gru·cuda
如何设置PyTorch程序在 GPU上运行nvidia-smi命令:显示的是驱动支持的最高 CUDA 版本,而不是必须安装的版本Mac (M系列: M1/M2/M3芯片): 无需此步骤,直接安装 PyTorch 即可支持 MPS, 命令(无需 CUDA)如下:
weixin_377634848 天前
cuda
【CUDA版本冲突】Driver/library version mismatch同时 nvcc --version 显示 CUDA Toolkit 版本为 11.5,一切正常,只有 nvidia-smi 无法工作。
Hi2024021712 天前
人工智能·自动驾驶·cuda·机器视觉
CUDA-BEVFusion 开箱即用镜像使用指南为了避免繁琐的环境配置,本文提供了一个预置环境的 Docker 镜像,帮助开发者快速上手 CUDA-BEVFusion。该镜像包含了完整的训练与推理依赖,用户无需从零搭建环境即可开始模型训练、量化和部署。
fpcc15 天前
人工智能·cuda
并行编程实战——异步编程的屏障的整体分析异步编程无论是在CPU编程还是在设计亦或是在多线程中都分析的太多了,但是为了把CUDA中的相关异步部分分析清楚,还是需要简单的赘述一下。所谓异步就是大家各搞各的互不关心,只是在达到一个特定的状态后会发一个通知。至于发了通知会怎么样,除了想要这个状态结果的线程会关心,发通知的异步任务是不Care的。 明白了什么是异步编程,就知道这种编程很爽又很麻烦。因为,异步可以不用考虑太多的复杂的同步机制,但实现难度上蓦然上了几个台阶。
starvapour18 天前
python·ai·cuda
CUDA_VISIBLE_DEVICES与nvidia-smi显卡序号不一致的问题情况描述: 物理插槽从上到下:RTX5090、RTX3090、RTX5090 nvidia-smi顺序:RTX5090、RTX3090、RTX5090 CUDA_VISIBLE_DEVICES实测顺序:RTX5090、RTX5090、RTX3090
大数据在线19 天前
cuda·昇腾·cann·英伟达·deepseek
AI计算新生态:旧地图找不到新大陆沿着旧地图,永远找不到新大陆。当英伟达GPU+CUDA花费数年构筑起足够高的AI计算生态壁垒时,试图通过“抄作业”的方式固然短时间之内可获得一定的份额,但这种“亦步亦趋”的捷径,本质上是基于他人的生态,最终无法在市场中实现真正的突围。
qq7621182221 天前
cuda
windows10 升级cuda 版本在cmd 输入nvidia-smi ,回车打开 https://www.nvidia.cn/geforce/drivers/
yx868xy24 天前
c++·cuda
Cuda加速直线拟合对于一些工业产线上收集来的三维数据,由于环境的复杂,数据量比较大,通常需要对数据进行清洗,预处理,加速等操作。 现在提供一种cuda加速的方式,对采集到的深度数据(Z方向数据)做预处理,进行直线拟合的方法。适用于定长数据数组
lizz3124 天前
linux·cuda·sglang
使用 nsys + gdb 寻找阻塞 API (cuKernelSetAttribute) 并解决作者注:本文记录了我作为 CUDA 新手,从遇到诡异阻塞,到利用 Nsight Systems 定位,再到通过 GDB 深入理解 API 行为,最终用“预热”优雅解决问题的全过程。
ouliten1 个月前
笔记·cuda
cuda编程笔记(41)--异步数据拷贝基于前两节 节的内容,本节将详细指导并演示 GPU 内存层级内的异步数据移动。内容涵盖:用于逐元素拷贝的 LDGSTS、用于块状(一维和多维)传输的张量内存加速器 (TMA),以及用于寄存器到分布式共享内存拷贝的 STAS;并展示了这些机制如何与异步屏障 (Asynchronous Barriers) 和流水线 (Pipelines) 集成。
liuyunshengsir1 个月前
cuda
掌握CUDA 编程中四个核心的内建变量threadIdx、blockIdx、blockDim 和 gridDim在 CUDA 编程中,threadIdx、blockIdx、blockDim 和 gridDim 是四个核心的内建变量,它们共同定义了 GPU 上并行线程的层次化组织结构,并帮助每个线程确定自己的唯一身份和任务。
ouliten1 个月前
笔记·cuda
cuda编程笔记(40)--Pipelines(流水线)流水线是在“高级同步原语”中引入的一种机制,用于阶段性地管理工作,并协调多缓冲区(Multi-buffer)的生产者-消费者模式。它通常被用来实现计算与异步数据拷贝的重叠(Overlap)。 本节详细介绍了主要通过 cuda::pipeline API 使用流水线的方法。
liuyunshengsir1 个月前
cuda
3 个由浅到深的 CUDA 编程完整示例下面提供 3个由浅到深的CUDA编程完整示例,覆盖基础向量运算、矩阵乘法(经典案例)、以及和PyTorch结合的实用场景,帮助你从入门到理解核心用法。
ouliten1 个月前
笔记·cuda
cuda编程笔记(39)--Asynchronous Barriers(异步屏障)本文需要有cooperative_groups的API基础,可以见我以前的文章,虽然讲解的不太好,以后有时间重置一下。cuda编程笔记(35)-- Cooperative Groups_cuda grid sync-CSDN博客
ouliten1 个月前
笔记·cuda
cuda编程笔记(38)--CUDA 异步回调在 CUDA 中,大部分操作(如内核启动 kernel<<<>>> 和 cudaMemcpyAsync)都是异步的。这意味着 CPU 把任务丢给 GPU 后,会立刻继续执行后面的代码,而不会原地等待 GPU 算完。
李昊哲小课1 个月前
c++·pytorch·深度学习·ubuntu·cuda·tensorflow2
WSL Ubuntu 24.04 GPU 加速环境完整安装指南架构说明:PyTorch 和 TensorFlow 通过 pip 安装的 nvidia-* Python 包自带 CUDA 运行时库,不需要系统 CUDA 即可使用 GPU。系统 CUDA 仅用于编译自定义 CUDA 代码和使用开发工具。
bloglin999991 个月前
ai·cuda
Ubuntu22.04 离线安装 CUDA12.3 依赖报错解决方案问题:我在ubuntu22:04离线环境安装cuda toolkit,cuda为12.3,已安装cuda-repo-ubuntu2204-12-3-local_12.3.0-545.23.06-1_amd64.deb,在apt install -y cuda时报错如下 Reading package lists... Done Building dependency tree... Done Reading state information... Done You might want to run '