技术栈
cuda
笑脸惹桃花
2 天前
深度学习
·
算法
·
yolo
·
torch
·
cuda
50系显卡训练深度学习YOLO等算法报错的解决方法
YOLO训练时报错NVIDIA GeForce RTX 5070 Ti with CUDA capability sm_120 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_50 sm_60 sm_61 sm_70 sm_75 sm_80 sm_86 sm_90. IF you want to use the NVIDIA
weiwei22844
6 天前
gpu
·
cuda
·
nsight compute
NVIDIA Kernel级性能分析工具Nsight Compute入门详解
仍以之前的vectorAdd程序为分析目标,在新建的工程中只指定编译好的可执行文件及其输出report文件,其他部分都保持默认,然后直接点击“Launch”进行分析。
山烛
15 天前
人工智能
·
pytorch
·
python
·
深度学习
·
cuda
深度学习:CUDA、PyTorch下载安装
对计算机而言,中央处理器 CPU 是主板上的芯片,图形处理器 GPU 是显卡上的芯片。每台计算机必有主板,但少数计算机可能没有显卡。显卡可以用来加速深度学习的运算速度(GPU 比 CPU 快 10-100 倍)。
伊织code
16 天前
pytorch
·
api
·
cpu
·
cuda
·
微分
·
autograd
PyTorch API 2
torch.autograd 提供了实现任意标量值函数自动微分的类和函数。只需对现有代码进行最小改动——您只需要通过requires_grad=True关键字声明需要计算梯度的Tensor即可。目前,我们仅支持浮点型Tensor(包括half、float、double和bfloat16)和复数型Tensor(cfloat、cdouble)的自动微分功能。
探模之翼
17 天前
cuda
·
wsl2
利用 Windows GPU 在 WSL2 中安装并配置 CUDA Toolkit
weiwei22844
18 天前
gpu
·
cuda
·
nsight systems
NVIDIA系统级性能分析工具Nsight Systems入门详解
Nsight Systems(简称nsys)是NVIDIA推出的一款系统级性能分析工具,主要用于优化 GPU 加速应用程序(尤其是基于 CUDA、OpenCL、DirectX、Vulkan 等 API 开发的程序)的性能,帮助开发者定位和解决计算、内存、通信等环节的瓶颈。所谓系统层面的分析工具,除了分析GPU的使用,还要分析CPU的使用,以及CPU和GPU的交互情况,可以捕捉CPU和GPU的各种事件,发现CPU和GPU上的等待以及不必要的同步,可以通过Nsight systems将任务均匀的分配到CPU和
charlee44
24 天前
大模型
·
cuda
·
qwen
·
量化
在本地部署Qwen大语言模型全过程总结
大语言模型要进行本地部署,先得选择一个与本地环境适配的模型。比如笔者这里选择的是Qwen1.5-7B-Chat,那么可以计算一下需要的存储空间大小:
weiwei22844
25 天前
gpu
·
cuda
CUDA编程初探
1993年:NVIDIA 成立,初期专注于图形芯片设计。 1997年:发布 RIVA 128,首款支持 DirectX 5 和 OpenGL 1.1 的显卡,采用 128-bit 架构,奠定早期 3D 加速基础。 1999年:推出 GeForce 256,首次提出“GPU”概念,集成硬件变换与光照(T&L)引擎,不再依赖 CPU 处理图形数据,性能较前代提升 10 倍。
www.02
1 个月前
linux
·
ubuntu
·
cuda
·
cudnn
·
服务器环境
在ubuntu服务器下安装cuda和cudnn(笔记)
目录0 引言1 相关环境查询2 安装cuda2.1 下载并安装2.2 安装选项配置2.3 验证安装3 安装cudnn
ouliten
1 个月前
笔记
·
cuda
cuda编程笔记(13)--使用CUB库实现基本功能
CUB 是 NVIDIA 提供的 高性能 CUDA 基础库,包含常用的并行原语(Reduction、Scan、Histogram 等),可以极大简化代码,并且比手写版本更优化。
Ray Song
1 个月前
nvidia
·
cuda
·
nvcc
CUDA杂记--nvcc使用介绍
nvcc 是 NVIDIA CUDA 生态的核心编译器,负责将 CUDA C/C++ 代码(混合了主机代码和设备代码)编译为可在 CPU 和 GPU 上运行的二进制文件。它不仅是一个简单的编译器,更是一个“编译驱动程序”,协调多个工具链(如主机编译器、CUDA 设备编译器、汇编器、链接器)完成整个编译流程。
ouliten
1 个月前
笔记
·
学习
·
cuda
cuda编程笔记(11)--学习cuBLAS的简单使用
cuBLAS 是 NVIDIA 提供的 GPU 加速 BLAS 库;使用时需要#include <cublas_v2.h>
笑稀了的野生俊
1 个月前
linux
·
ubuntu
·
cuda
·
nvidia driver
Ubuntu 下配置 NVIDIA 驱动与 CUDA 环境(适配 RTX 4060Ti)
本文记录了在 Ubuntu 20.04 系统中,从零开始为 NVIDIA GeForce RTX 4060Ti 配置 GPU 驱动与 CUDA Toolkit 的完整过程,适合有一定终端基础的开发者参考。
闻道且行之
1 个月前
windows
·
深度学习
·
cuda
·
cudnn
Windows|CUDA和cuDNN下载和安装,默认安装在C盘和不安装在C盘的两种方法
本篇文章将详细介绍在Windows操作系统中配置CUDA和cuDNN的步骤。通过本教程,您将能够轻松完成CUDA和cuDNN的安装、环境变量配置以及与深度学习框架(如TensorFlow和PyTorch)兼容性测试,从而为您的深度学习项目提供强大的硬件支持。无论您是深度学习的初学者,还是有一定经验的开发者,本篇文章都将帮助您快速搭建起高效的GPU加速开发环境。
seasonsyy
1 个月前
python
·
深度学习
·
环境配置
·
cuda
2.安装CUDA详细步骤(含安装截图)
第一步:安装anaconda 注意:安装CUDA之前需要安装好anaconda,详见安装anaconda详细步骤(含安装截图)
点云SLAM
1 个月前
人工智能
·
pytorch
·
python
·
深度学习
·
3d
·
cuda
·
多gpu训练
Pytorch中cuda相关操作详见和代码示例
在 PyTorch 中,CUDA 是用于加速深度学习计算的重要接口。下面将从 基础概念、常用操作、代码示例 等方面详解 PyTorch 中的 CUDA 操作。
mpr0xy
1 个月前
ai
·
ffmpeg
·
nvidia
·
cuda
编译支持cuda硬件加速的ffmpeg
本来以为很简单,因为印象中自己在windows机器上使用过。目前的实在一个docker环境下的ubuntu系统里。
ouliten
2 个月前
笔记
·
cuda
cuda编程笔记(9)--使用 Shared Memory 实现 tiled GEMM
tiled GEMM 是在 GPU 上使用 共享内存(Shared Memory)优化通用矩阵乘法(GEMM, General Matrix Multiply) 的一种经典方法,其核心思想是 将大矩阵拆分为更小的 tile(子块),再通过共享内存提高缓存命中率和并行计算效率。
ZhiqianXia
2 个月前
cuda
片上网络(NoC)拓扑结构比较
在片上网络(Network-on-Chip, NoC)的设计中,节点度(Node Degree)、**对分带宽(Bisection Bandwidth)和网络直径(Network Diameter)**是三个关键的拓扑结构评估指标,它们直接影响NoC的性能、效率和适用性。以下详细解释这三个指标的定义、作用及其在NoC设计中的意义,并以表格形式整理。
木子杳衫
2 个月前
显卡
·
cuda
显卡 | CUDA
CUDA是NVIDIA为其图像处理器(GPU)开发的并行计算平台和编程模型,它与显卡的关系密不可分、相互成就。