cuda

笑脸惹桃花2 天前
深度学习·算法·yolo·torch·cuda
50系显卡训练深度学习YOLO等算法报错的解决方法YOLO训练时报错NVIDIA GeForce RTX 5070 Ti with CUDA capability sm_120 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_50 sm_60 sm_61 sm_70 sm_75 sm_80 sm_86 sm_90. IF you want to use the NVIDIA
weiwei228446 天前
gpu·cuda·nsight compute
NVIDIA Kernel级性能分析工具Nsight Compute入门详解仍以之前的vectorAdd程序为分析目标,在新建的工程中只指定编译好的可执行文件及其输出report文件,其他部分都保持默认,然后直接点击“Launch”进行分析。
山烛15 天前
人工智能·pytorch·python·深度学习·cuda
深度学习:CUDA、PyTorch下载安装对计算机而言,中央处理器 CPU 是主板上的芯片,图形处理器 GPU 是显卡上的芯片。每台计算机必有主板,但少数计算机可能没有显卡。显卡可以用来加速深度学习的运算速度(GPU 比 CPU 快 10-100 倍)。
伊织code16 天前
pytorch·api·cpu·cuda·微分·autograd
PyTorch API 2torch.autograd 提供了实现任意标量值函数自动微分的类和函数。只需对现有代码进行最小改动——您只需要通过requires_grad=True关键字声明需要计算梯度的Tensor即可。目前,我们仅支持浮点型Tensor(包括half、float、double和bfloat16)和复数型Tensor(cfloat、cdouble)的自动微分功能。
探模之翼17 天前
cuda·wsl2
利用 Windows GPU 在 WSL2 中安装并配置 CUDA Toolkit
weiwei2284418 天前
gpu·cuda·nsight systems
NVIDIA系统级性能分析工具Nsight Systems入门详解Nsight Systems(简称nsys)是NVIDIA推出的一款系统级性能分析工具,主要用于优化 GPU 加速应用程序(尤其是基于 CUDA、OpenCL、DirectX、Vulkan 等 API 开发的程序)的性能,帮助开发者定位和解决计算、内存、通信等环节的瓶颈。所谓系统层面的分析工具,除了分析GPU的使用,还要分析CPU的使用,以及CPU和GPU的交互情况,可以捕捉CPU和GPU的各种事件,发现CPU和GPU上的等待以及不必要的同步,可以通过Nsight systems将任务均匀的分配到CPU和
charlee4424 天前
大模型·cuda·qwen·量化
在本地部署Qwen大语言模型全过程总结大语言模型要进行本地部署,先得选择一个与本地环境适配的模型。比如笔者这里选择的是Qwen1.5-7B-Chat,那么可以计算一下需要的存储空间大小:
weiwei2284425 天前
gpu·cuda
CUDA编程初探1993年:NVIDIA 成立,初期专注于图形芯片设计。 1997年:发布 RIVA 128,首款支持 DirectX 5 和 OpenGL 1.1 的显卡,采用 128-bit 架构,奠定早期 3D 加速基础。 1999年:推出 GeForce 256,首次提出“GPU”概念,集成硬件变换与光照(T&L)引擎,不再依赖 CPU 处理图形数据,性能较前代提升 10 倍。
www.021 个月前
linux·ubuntu·cuda·cudnn·服务器环境
在ubuntu服务器下安装cuda和cudnn(笔记)目录0 引言1 相关环境查询2 安装cuda2.1 下载并安装2.2 安装选项配置2.3 验证安装3 安装cudnn
ouliten1 个月前
笔记·cuda
cuda编程笔记(13)--使用CUB库实现基本功能CUB 是 NVIDIA 提供的 高性能 CUDA 基础库,包含常用的并行原语(Reduction、Scan、Histogram 等),可以极大简化代码,并且比手写版本更优化。
Ray Song1 个月前
nvidia·cuda·nvcc
CUDA杂记--nvcc使用介绍nvcc 是 NVIDIA CUDA 生态的核心编译器,负责将 CUDA C/C++ 代码(混合了主机代码和设备代码)编译为可在 CPU 和 GPU 上运行的二进制文件。它不仅是一个简单的编译器,更是一个“编译驱动程序”,协调多个工具链(如主机编译器、CUDA 设备编译器、汇编器、链接器)完成整个编译流程。
ouliten1 个月前
笔记·学习·cuda
cuda编程笔记(11)--学习cuBLAS的简单使用cuBLAS 是 NVIDIA 提供的 GPU 加速 BLAS 库;使用时需要#include <cublas_v2.h>
笑稀了的野生俊1 个月前
linux·ubuntu·cuda·nvidia driver
Ubuntu 下配置 NVIDIA 驱动与 CUDA 环境(适配 RTX 4060Ti)本文记录了在 Ubuntu 20.04 系统中,从零开始为 NVIDIA GeForce RTX 4060Ti 配置 GPU 驱动与 CUDA Toolkit 的完整过程,适合有一定终端基础的开发者参考。
闻道且行之1 个月前
windows·深度学习·cuda·cudnn
Windows|CUDA和cuDNN下载和安装,默认安装在C盘和不安装在C盘的两种方法本篇文章将详细介绍在Windows操作系统中配置CUDA和cuDNN的步骤。通过本教程,您将能够轻松完成CUDA和cuDNN的安装、环境变量配置以及与深度学习框架(如TensorFlow和PyTorch)兼容性测试,从而为您的深度学习项目提供强大的硬件支持。无论您是深度学习的初学者,还是有一定经验的开发者,本篇文章都将帮助您快速搭建起高效的GPU加速开发环境。
seasonsyy1 个月前
python·深度学习·环境配置·cuda
2.安装CUDA详细步骤(含安装截图)第一步:安装anaconda 注意:安装CUDA之前需要安装好anaconda,详见安装anaconda详细步骤(含安装截图)
点云SLAM1 个月前
人工智能·pytorch·python·深度学习·3d·cuda·多gpu训练
Pytorch中cuda相关操作详见和代码示例在 PyTorch 中,CUDA 是用于加速深度学习计算的重要接口。下面将从 基础概念、常用操作、代码示例 等方面详解 PyTorch 中的 CUDA 操作。
mpr0xy1 个月前
ai·ffmpeg·nvidia·cuda
编译支持cuda硬件加速的ffmpeg本来以为很简单,因为印象中自己在windows机器上使用过。目前的实在一个docker环境下的ubuntu系统里。
ouliten2 个月前
笔记·cuda
cuda编程笔记(9)--使用 Shared Memory 实现 tiled GEMMtiled GEMM 是在 GPU 上使用 共享内存(Shared Memory)优化通用矩阵乘法(GEMM, General Matrix Multiply) 的一种经典方法,其核心思想是 将大矩阵拆分为更小的 tile(子块),再通过共享内存提高缓存命中率和并行计算效率。
ZhiqianXia2 个月前
cuda
片上网络(NoC)拓扑结构比较在片上网络(Network-on-Chip, NoC)的设计中,节点度(Node Degree)、**对分带宽(Bisection Bandwidth)和网络直径(Network Diameter)**是三个关键的拓扑结构评估指标,它们直接影响NoC的性能、效率和适用性。以下详细解释这三个指标的定义、作用及其在NoC设计中的意义,并以表格形式整理。
木子杳衫2 个月前
显卡·cuda
显卡 | CUDACUDA是NVIDIA为其图像处理器(GPU)开发的并行计算平台和编程模型,它与显卡的关系密不可分、相互成就。