cuda

在本地部署Qwen大语言模型全过程总结大语言模型要进行本地部署，先得选择一个与本地环境适配的模型。比如笔者这里选择的是Qwen1.5-7B-Chat，那么可以计算一下需要的存储空间大小：

CUDA编程初探1993年：NVIDIA 成立，初期专注于图形芯片设计。 1997年：发布 RIVA 128，首款支持 DirectX 5 和 OpenGL 1.1 的显卡，采用 128-bit 架构，奠定早期 3D 加速基础。 1999年：推出 GeForce 256，首次提出“GPU”概念，集成硬件变换与光照（T&L）引擎，不再依赖 CPU 处理图形数据，性能较前代提升 10 倍。

在ubuntu服务器下安装cuda和cudnn（笔记）目录0 引言1 相关环境查询2 安装cuda2.1 下载并安装2.2 安装选项配置2.3 验证安装3 安装cudnn

cuda编程笔记（13）--使用CUB库实现基本功能CUB 是 NVIDIA 提供的高性能 CUDA 基础库，包含常用的并行原语（Reduction、Scan、Histogram 等），可以极大简化代码，并且比手写版本更优化。

CUDA杂记--nvcc使用介绍nvcc 是 NVIDIA CUDA 生态的核心编译器，负责将 CUDA C/C++ 代码（混合了主机代码和设备代码）编译为可在 CPU 和 GPU 上运行的二进制文件。它不仅是一个简单的编译器，更是一个“编译驱动程序”，协调多个工具链（如主机编译器、CUDA 设备编译器、汇编器、链接器）完成整个编译流程。

cuda编程笔记（11）--学习cuBLAS的简单使用cuBLAS 是 NVIDIA 提供的 GPU 加速 BLAS 库；使用时需要#include <cublas_v2.h>

笑稀了的野生俊

Ubuntu 下配置 NVIDIA 驱动与 CUDA 环境（适配 RTX 4060Ti）本文记录了在 Ubuntu 20.04 系统中，从零开始为 NVIDIA GeForce RTX 4060Ti 配置 GPU 驱动与 CUDA Toolkit 的完整过程，适合有一定终端基础的开发者参考。

闻道且行之

Windows|CUDA和cuDNN下载和安装，默认安装在C盘和不安装在C盘的两种方法本篇文章将详细介绍在Windows操作系统中配置CUDA和cuDNN的步骤。通过本教程，您将能够轻松完成CUDA和cuDNN的安装、环境变量配置以及与深度学习框架（如TensorFlow和PyTorch）兼容性测试，从而为您的深度学习项目提供强大的硬件支持。无论您是深度学习的初学者，还是有一定经验的开发者，本篇文章都将帮助您快速搭建起高效的GPU加速开发环境。

2.安装CUDA详细步骤（含安装截图）第一步：安装anaconda 注意：安装CUDA之前需要安装好anaconda，详见安装anaconda详细步骤（含安装截图）

Pytorch中cuda相关操作详见和代码示例在 PyTorch 中，CUDA 是用于加速深度学习计算的重要接口。下面将从基础概念、常用操作、代码示例等方面详解 PyTorch 中的 CUDA 操作。

编译支持cuda硬件加速的ffmpeg本来以为很简单，因为印象中自己在windows机器上使用过。目前的实在一个docker环境下的ubuntu系统里。

cuda编程笔记（9）--使用 Shared Memory 实现 tiled GEMMtiled GEMM 是在 GPU 上使用共享内存（Shared Memory）优化通用矩阵乘法（GEMM, General Matrix Multiply）的一种经典方法，其核心思想是将大矩阵拆分为更小的 tile（子块），再通过共享内存提高缓存命中率和并行计算效率。

片上网络（NoC）拓扑结构比较在片上网络（Network-on-Chip, NoC）的设计中，节点度（Node Degree）、**对分带宽（Bisection Bandwidth）和网络直径（Network Diameter）**是三个关键的拓扑结构评估指标，它们直接影响NoC的性能、效率和适用性。以下详细解释这三个指标的定义、作用及其在NoC设计中的意义，并以表格形式整理。

显卡 | CUDACUDA是NVIDIA为其图像处理器(GPU)开发的并行计算平台和编程模型，它与显卡的关系密不可分、相互成就。

Pytorch/CUDA——flash-attn 库编译的 gcc 版本问题flash-attn 是一个高性能 CUDA 加速库，编译时对 gcc（或 g++）版本是有严格要求的，因为它需要和 NVIDIA CUDA Toolkit 的版本匹配。如果 gcc 太新或太旧，nvcc 会直接报错或编译出来的不兼容。

如何查看自己电脑的CUDA版本？在搜索栏输入命令提示符打开输入图片中的两个是CUDA版本和显卡的信息

【CUDA&cuDNN安装】深度学习基础环境搭建目录前言一、检查CUDA 版本必须与电脑的显卡型号匹配1.1 确定你的显卡型号1.1.1【可能遇到错误】

咩咩大主教

2025最新版使用VSCode和CMake图形化编译调试Cuda C++程序(保姆级教学)VSCode+CMake简直就是C++程序开发者的福音，无论是进行Qt开发，音视频开发，后端程序开发，Cuda开发，CMake都是神一样的存在。

量化投资和人工智能

【CUDA编程】OptionalCUDAGuard详解OptionalCUDAGuard 是 PyTorch 的 CUDA 工具库（c10/cuda）中用于安全管理 GPU 设备上下文的 RAII（Resource Acquisition Is Initialization）类。其核心作用是在特定代码块中临时切换 GPU 设备，并在退出作用域时自动恢复原设备状态，尤其适用于设备可能为“未指定”（nullopt）的场景。以下从作用、原理、用法和典型场景详细解析：

VS2019+CUDA12.5入门通常先装vs后装cuda，cuda会自动集成到vs中。而如果先装cuda，后装vs则需要进行额外的配置。