cuda

qq7621182220 小时前
cuda
windows10 升级cuda 版本在cmd 输入nvidia-smi ,回车打开 https://www.nvidia.cn/geforce/drivers/
yx868xy3 天前
c++·cuda
Cuda加速直线拟合对于一些工业产线上收集来的三维数据,由于环境的复杂,数据量比较大,通常需要对数据进行清洗,预处理,加速等操作。 现在提供一种cuda加速的方式,对采集到的深度数据(Z方向数据)做预处理,进行直线拟合的方法。适用于定长数据数组
lizz314 天前
linux·cuda·sglang
使用 nsys + gdb 寻找阻塞 API (cuKernelSetAttribute) 并解决作者注:本文记录了我作为 CUDA 新手,从遇到诡异阻塞,到利用 Nsight Systems 定位,再到通过 GDB 深入理解 API 行为,最终用“预热”优雅解决问题的全过程。
ouliten6 天前
笔记·cuda
cuda编程笔记(41)--异步数据拷贝基于前两节 节的内容,本节将详细指导并演示 GPU 内存层级内的异步数据移动。内容涵盖:用于逐元素拷贝的 LDGSTS、用于块状(一维和多维)传输的张量内存加速器 (TMA),以及用于寄存器到分布式共享内存拷贝的 STAS;并展示了这些机制如何与异步屏障 (Asynchronous Barriers) 和流水线 (Pipelines) 集成。
liuyunshengsir7 天前
cuda
掌握CUDA 编程中四个核心的内建变量threadIdx、blockIdx、blockDim 和 gridDim在 CUDA 编程中,threadIdx、blockIdx、blockDim 和 gridDim 是四个核心的内建变量,它们共同定义了 GPU 上并行线程的层次化组织结构,并帮助每个线程确定自己的唯一身份和任务。
ouliten7 天前
笔记·cuda
cuda编程笔记(40)--Pipelines(流水线)流水线是在“高级同步原语”中引入的一种机制,用于阶段性地管理工作,并协调多缓冲区(Multi-buffer)的生产者-消费者模式。它通常被用来实现计算与异步数据拷贝的重叠(Overlap)。 本节详细介绍了主要通过 cuda::pipeline API 使用流水线的方法。
liuyunshengsir7 天前
cuda
3 个由浅到深的 CUDA 编程完整示例下面提供 3个由浅到深的CUDA编程完整示例,覆盖基础向量运算、矩阵乘法(经典案例)、以及和PyTorch结合的实用场景,帮助你从入门到理解核心用法。
ouliten7 天前
笔记·cuda
cuda编程笔记(39)--Asynchronous Barriers(异步屏障)本文需要有cooperative_groups的API基础,可以见我以前的文章,虽然讲解的不太好,以后有时间重置一下。cuda编程笔记(35)-- Cooperative Groups_cuda grid sync-CSDN博客
ouliten8 天前
笔记·cuda
cuda编程笔记(38)--CUDA 异步回调在 CUDA 中,大部分操作(如内核启动 kernel<<<>>> 和 cudaMemcpyAsync)都是异步的。这意味着 CPU 把任务丢给 GPU 后,会立刻继续执行后面的代码,而不会原地等待 GPU 算完。
李昊哲小课11 天前
c++·pytorch·深度学习·ubuntu·cuda·tensorflow2
WSL Ubuntu 24.04 GPU 加速环境完整安装指南架构说明:PyTorch 和 TensorFlow 通过 pip 安装的 nvidia-* Python 包自带 CUDA 运行时库,不需要系统 CUDA 即可使用 GPU。系统 CUDA 仅用于编译自定义 CUDA 代码和使用开发工具。
bloglin9999912 天前
ai·cuda
Ubuntu22.04 离线安装 CUDA12.3 依赖报错解决方案问题:我在ubuntu22:04离线环境安装cuda toolkit,cuda为12.3,已安装cuda-repo-ubuntu2204-12-3-local_12.3.0-545.23.06-1_amd64.deb,在apt install -y cuda时报错如下 Reading package lists... Done Building dependency tree... Done Reading state information... Done You might want to run '
fpcc17 天前
人工智能·cuda
并行编程实战——CUDA编程的图之六子图的创建子图,child graph。子图其实就是图,这样说可能有点意外。这么说吧,父亲是人,儿子同样也是人。这么理解就明白了。之所以叫子图,是因为把这个图嵌入到了另外一个图中,所以为了区别二者间的关系,就称之为子图。 计算机世界和现实世界没什么区别,当解决一个问题时发现这个问题比较复杂,就为将其分解为多个小的问题。这些小问题,就可以称之为大问题的子问题。顺而推理,子图就是嵌套在图中的图。 简单的理解就是子图和父图只是一种逻辑层次关系而不是一种互相独立的功能关系。
明月醉窗台18 天前
人工智能·算法·nvidia·cuda·jetson
[jetson] AGX Xavier 安装Ubuntu18.04及jetpack4.5以下是详细的操作步骤:主机 (Host PC): 一台安装了 Ubuntu 18.04 或 20.04 的台式机或虚拟机(建议实体机,更稳定),
飞翔的SA18 天前
开发语言·c++·python·nvidia·cuda
全程 Python:无需离开 Python 即可实现光速级 CUDA 加速,无需c++支持目录一、当前痛点二、思维导图三、详细总结1. 演讲背景与目标2. 核心性能挑战:SAXPY基准测试3. 现有Python GPU库的局限
阿钱真强道23 天前
pytorch·cuda·aarch64·深度学习环境搭建·飞腾服务器·s5000c·rtx4090d
01 飞腾 S5000C 服务器环境搭建实战:PyTorch + CUDA + RTX 4090D 安装与验证最近在飞腾 S5000C 服务器上搭建深度学习运行环境,本文记录一下从硬件信息确认、GPU 驱动检查,到 PyTorch 安装和 CUDA 验证的完整过程。
酌量1 个月前
linux·笔记·ubuntu·torch·cuda·agx
nvidia orin agx刷机忘记CUDA runtime,安装torch和cuda废话不多说,直接上操作1. 加源 安装依赖手动添加源然后添加相关源保存后执行2. 安装 JetPack(完整CUDA) 执行
明月醉窗台1 个月前
人工智能·边缘计算·cuda·jetson
[Jetson] NVIDIA Jetson 全系列边缘计算芯片进阶指南这是英伟达目前最顶尖的系列,专为具身智能(Humanoid Robotics)和生成式 AI 设计。上市年份: 2024年发布(2025年量产)。
明月醉窗台1 个月前
人工智能·opencv·计算机视觉·cuda·jetson
[Jetson] 在Jetson Xavier AGX编译opencv+cuda准备工作:安装依赖包:执行编译:https://blog.csdn.net/yohnyang/article/details/129893542
专注VB编程开发20年1 个月前
算法·cuda
CUDA实现随机切割算法,显卡多线程计算你的切割优化随机算法,天生就是为 CUDA 并行设计的:每一次随机方案的生成、计算、校验,都是完全独立、互不干扰的任务,没有线程间依赖,属于 GPU 最擅长的「尴尬并行」场景。
KIDGINBROOK1 个月前
cuda·rdma·nccl
NVIDIA NCCL 源码学习(十七)- LL和LL128协议之前提到nccl有多种协议,并且主要以simple协议为例介绍nccl的流程,本节我们具体看下simple之外的LL和LL128协议,LL是low latency的缩写,表示低延迟。 协议在这里是指当前rank发送数据给peer的时候,peer如何知道数据已经可见,simple的做法是当前rank先发data,再执行fence_sys,最后发flag,peer轮询flag,当轮询到flag的时候就可以知道data已经可见,但是fence_sys是个耗时的操作,nccl通过拆分出单独的warp执行fence