cuda

扫地的小何尚3 天前
人工智能·语言模型·llm·gpu·量子计算·nvidia·cuda
深度解析 CUDA-QX 0.4 加速 QEC 与求解器库在通往大规模、容错量子超级计算机的征程中,量子纠错(Quantum Error Correction, QEC)既是最大的机遇,也是最严峻的挑战 。它将当今的含噪中等规模量子(Noisy Intermediate-Scale Quantum, NISQ)设备与未来的强大计算引擎区分开来。克服这一挑战需要的不仅仅是渐进式的改进,而是一场范式革命——从零散、受限于 CPU 的研究工具,转向一个紧密集成、大规模并行、端到端的开发平台。
笑脸惹桃花22 天前
深度学习·算法·yolo·torch·cuda
50系显卡训练深度学习YOLO等算法报错的解决方法YOLO训练时报错NVIDIA GeForce RTX 5070 Ti with CUDA capability sm_120 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_50 sm_60 sm_61 sm_70 sm_75 sm_80 sm_86 sm_90. IF you want to use the NVIDIA
weiwei228441 个月前
gpu·cuda·nsight compute
NVIDIA Kernel级性能分析工具Nsight Compute入门详解仍以之前的vectorAdd程序为分析目标,在新建的工程中只指定编译好的可执行文件及其输出report文件,其他部分都保持默认,然后直接点击“Launch”进行分析。
山烛1 个月前
人工智能·pytorch·python·深度学习·cuda
深度学习:CUDA、PyTorch下载安装对计算机而言,中央处理器 CPU 是主板上的芯片,图形处理器 GPU 是显卡上的芯片。每台计算机必有主板,但少数计算机可能没有显卡。显卡可以用来加速深度学习的运算速度(GPU 比 CPU 快 10-100 倍)。
伊织code1 个月前
pytorch·api·cpu·cuda·微分·autograd
PyTorch API 2torch.autograd 提供了实现任意标量值函数自动微分的类和函数。只需对现有代码进行最小改动——您只需要通过requires_grad=True关键字声明需要计算梯度的Tensor即可。目前,我们仅支持浮点型Tensor(包括half、float、double和bfloat16)和复数型Tensor(cfloat、cdouble)的自动微分功能。
探模之翼1 个月前
cuda·wsl2
利用 Windows GPU 在 WSL2 中安装并配置 CUDA Toolkit
weiwei228441 个月前
gpu·cuda·nsight systems
NVIDIA系统级性能分析工具Nsight Systems入门详解Nsight Systems(简称nsys)是NVIDIA推出的一款系统级性能分析工具,主要用于优化 GPU 加速应用程序(尤其是基于 CUDA、OpenCL、DirectX、Vulkan 等 API 开发的程序)的性能,帮助开发者定位和解决计算、内存、通信等环节的瓶颈。所谓系统层面的分析工具,除了分析GPU的使用,还要分析CPU的使用,以及CPU和GPU的交互情况,可以捕捉CPU和GPU的各种事件,发现CPU和GPU上的等待以及不必要的同步,可以通过Nsight systems将任务均匀的分配到CPU和
charlee441 个月前
大模型·cuda·qwen·量化
在本地部署Qwen大语言模型全过程总结大语言模型要进行本地部署,先得选择一个与本地环境适配的模型。比如笔者这里选择的是Qwen1.5-7B-Chat,那么可以计算一下需要的存储空间大小:
weiwei228441 个月前
gpu·cuda
CUDA编程初探1993年:NVIDIA 成立,初期专注于图形芯片设计。 1997年:发布 RIVA 128,首款支持 DirectX 5 和 OpenGL 1.1 的显卡,采用 128-bit 架构,奠定早期 3D 加速基础。 1999年:推出 GeForce 256,首次提出“GPU”概念,集成硬件变换与光照(T&L)引擎,不再依赖 CPU 处理图形数据,性能较前代提升 10 倍。
www.022 个月前
linux·ubuntu·cuda·cudnn·服务器环境
在ubuntu服务器下安装cuda和cudnn(笔记)目录0 引言1 相关环境查询2 安装cuda2.1 下载并安装2.2 安装选项配置2.3 验证安装3 安装cudnn
ouliten2 个月前
笔记·cuda
cuda编程笔记(13)--使用CUB库实现基本功能CUB 是 NVIDIA 提供的 高性能 CUDA 基础库,包含常用的并行原语(Reduction、Scan、Histogram 等),可以极大简化代码,并且比手写版本更优化。
Ray Song2 个月前
nvidia·cuda·nvcc
CUDA杂记--nvcc使用介绍nvcc 是 NVIDIA CUDA 生态的核心编译器,负责将 CUDA C/C++ 代码(混合了主机代码和设备代码)编译为可在 CPU 和 GPU 上运行的二进制文件。它不仅是一个简单的编译器,更是一个“编译驱动程序”,协调多个工具链(如主机编译器、CUDA 设备编译器、汇编器、链接器)完成整个编译流程。
ouliten2 个月前
笔记·学习·cuda
cuda编程笔记(11)--学习cuBLAS的简单使用cuBLAS 是 NVIDIA 提供的 GPU 加速 BLAS 库;使用时需要#include <cublas_v2.h>
笑稀了的野生俊2 个月前
linux·ubuntu·cuda·nvidia driver
Ubuntu 下配置 NVIDIA 驱动与 CUDA 环境(适配 RTX 4060Ti)本文记录了在 Ubuntu 20.04 系统中,从零开始为 NVIDIA GeForce RTX 4060Ti 配置 GPU 驱动与 CUDA Toolkit 的完整过程,适合有一定终端基础的开发者参考。
闻道且行之2 个月前
windows·深度学习·cuda·cudnn
Windows|CUDA和cuDNN下载和安装,默认安装在C盘和不安装在C盘的两种方法本篇文章将详细介绍在Windows操作系统中配置CUDA和cuDNN的步骤。通过本教程,您将能够轻松完成CUDA和cuDNN的安装、环境变量配置以及与深度学习框架(如TensorFlow和PyTorch)兼容性测试,从而为您的深度学习项目提供强大的硬件支持。无论您是深度学习的初学者,还是有一定经验的开发者,本篇文章都将帮助您快速搭建起高效的GPU加速开发环境。
seasonsyy2 个月前
python·深度学习·环境配置·cuda
2.安装CUDA详细步骤(含安装截图)第一步:安装anaconda 注意:安装CUDA之前需要安装好anaconda,详见安装anaconda详细步骤(含安装截图)
点云SLAM2 个月前
人工智能·pytorch·python·深度学习·3d·cuda·多gpu训练
Pytorch中cuda相关操作详见和代码示例在 PyTorch 中,CUDA 是用于加速深度学习计算的重要接口。下面将从 基础概念、常用操作、代码示例 等方面详解 PyTorch 中的 CUDA 操作。
mpr0xy2 个月前
ai·ffmpeg·nvidia·cuda
编译支持cuda硬件加速的ffmpeg本来以为很简单,因为印象中自己在windows机器上使用过。目前的实在一个docker环境下的ubuntu系统里。
ouliten2 个月前
笔记·cuda
cuda编程笔记(9)--使用 Shared Memory 实现 tiled GEMMtiled GEMM 是在 GPU 上使用 共享内存(Shared Memory)优化通用矩阵乘法(GEMM, General Matrix Multiply) 的一种经典方法,其核心思想是 将大矩阵拆分为更小的 tile(子块),再通过共享内存提高缓存命中率和并行计算效率。
ZhiqianXia2 个月前
cuda
片上网络(NoC)拓扑结构比较在片上网络(Network-on-Chip, NoC)的设计中,节点度(Node Degree)、**对分带宽(Bisection Bandwidth)和网络直径(Network Diameter)**是三个关键的拓扑结构评估指标,它们直接影响NoC的性能、效率和适用性。以下详细解释这三个指标的定义、作用及其在NoC设计中的意义,并以表格形式整理。