cuda

封奚泽优2 天前
pytorch·python·cuda·mmdetection·mmcv
使用mmdetection项目进行训练记录open-mmlab/OpenMMLabCourse:OpenMMLab课程索引及相关内容MMDetection 环境搭建保姆级指南(支持50系列显卡)_mmdetection windows安装-CSDN博客
fpcc3 天前
c++·cuda
并行编程实战——CUDA编程的其它Warp函数在前面将束内原语的Vote和Shuffle进行了分析和说明,基本明白了二者的功能和用途。这时候可能就会想到,会不会还有其它的束内函数呢?那自然是有的。下面将对其它的几个束内函数进行分析和说明,不过,重点只是进行功能的分析说明。更多的细节需要思考和查找相关资料(特别是官网上的文档说明)。
Autumn72994 天前
开发语言·python·conda·cuda
【系统重装】PYTHON 入门——速通版直接输入指令验证,缺少什么就安装什么conda 也叫 anaconda,验证:如果缺少,参考这篇里面的----Win10(无gpu)https://blog.csdn.net/weixin_46022776/article/details/152517904
fpcc5 天前
c++·cuda
并行编程实战——CUDA编程的Warp Vote原语,对于开发者们并不陌生。而CUDA也提供了不同情况下的原语操作,其中一个就是束内原语。包括前面才分析过的Warp Shuffle和将要分析的Warp Vote。 所以束内原语,其实就是Warp内的原语。它提供了在Warp内的原子性、不可再细分的基本操作,提供了最基础的同步操作。
fpcc5 天前
c++·cuda
并行编程实战——CUDA编程的Warp Shuffle在每一种语言中,对线程或进程间的数据交互都控制的非常谨慎。也就是说,为了兼顾效率和安全,往往对线程间的通信根据不同的情况提供不同的处理机制。特别涉及到内存中的数据交互,提供了多种的处理方法,典型的有:
风流倜傥唐伯虎7 天前
人工智能·深度学习·cuda
N卡深度学习环境配置1. 打开CMD命令行,输入指令:nvidia-smi2. 查看输出结果中的驱动版本(示例:RTX 3050 laptop 对应驱动版本 526.56)。
fpcc8 天前
c++·cuda
并行编程实战——CUDA编程的Enhancing Memory AllocationEnhancing Memory Allocation,优化内存分配或改进内存分配、增强内存分配。在前面的文章对CUDA内存管理和优化以及优化的方法“内存预取”进行了分析说明。本文将对CUDA中整体的内存优化进行分析,并根据具体的层次说明与之相关的内存优化方法。 在此基础之上,协调处理每个层次的内存优化以期达到整体的最大优化的可能。
fpcc8 天前
人工智能·cuda
AI和大模型之一介绍要想搞AI,必须先得把根儿刨刨。早在很久以前,人们就幻想着能够让机器来代替更多的人类的工作。但真正能够把这个幻想朝着真实迈进一步的,则是机器学习的发展特别是深度学习的发展。这才让AI真正走到了大众面前。特别是多层卷积神经网络的出现配合着硬件技术的突破,以及谷歌等头部大公司开源了TensorFlow和PyTorch等基础深度学习框架后。相关的AI技术开始快速发展。生成对抗网络等技术也不断的发展,使得相关的AI基础支撑技术得到了长足的进步。
闪电橘子8 天前
ide·python·pycharm·cuda
Pycharm运行程序报错 Process finished with exit code -1066598273 (0xC06D007F)1.终端可以运行2.连print(1)都报错,报错内容:Process finished with exit code -1066598273 (0xC06D007F)
fpcc9 天前
c++·cuda
并行编程实战——CUDA编程的内存建议统一内存的优势是让开发者在面对内存只是看到一个内存而不是要区别主机和设备内存,这样更有利于应用和底层管理的操作。毕竟,复杂度的降低往往都是一种技术的进步。 而统一内存出现后,就对内存的优化提供了统一的路径,除了前面提到的内存的预取,另外一个就是本文将要分析的内存建议,memory advise。内存建议是与统一内存配合使用的一种高级的内存优化技术。其关键的技术点在于向CUDA运行时提供了内存访问模式的提示(hints)。它可以让CUDA整体上在一个较长的周期内做出更优的数据迁移策略,减少内存的抖动缺页中断
love530love11 天前
人工智能·windows·json·cuda·lm studio·openclaw·context length
【OpenClaw 本地实战 Ep.3】突破瓶颈:强制修改 openclaw.json 解锁 32k 上下文记忆【OpenClaw 本地实战 Ep.1】抛弃 Ollama?转向 LM Studio!Windows 下用 NVIDIA 显卡搭建 OpenClaw 本地极速推理服务
fpcc11 天前
c++·cuda
并行编程实战——CUDA编程的Tile2025年12月,CUDA进行了最新的版本升级。在CUDA13.1中,推出了针对GPU的全新编程模型。英伟达的官方表示:“bringling the largest update in 20 years.”. 更新的主要内容包括:
love530love12 天前
人工智能·windows·gpu·cuda·ollama·lm studio·openclaw
【OpenClaw 本地实战 Ep.2】零代码对接:使用交互式向导快速连接本地 LM Studio 用 CUDA GPU 推理目标:让 OpenClaw 调用本地 LM Studio 运行的模型,代替 Ollama 实现稳定的 CUDA GPU 推理,体验极速的本地模型服务 部署方式:从源代码部署(非 npm 全局安装) 环境:Windows + WSL2(推荐)或原生 Windows 版本:OpenClaw 2026.2.13 (a2b45e1)
Eloudy13 天前
机器学习·gpu·cuda
CUTLASS README v4.4.0CUTLASS 4.4.0 - 2026年1月CUTLASS 是一套在 CUDA 中所有层次和规模上实现高性能矩阵乘法(GEMM)及相关计算的抽象集合。它融合了分层分解和数据移动的策略。CUTLASS 将这些“可动部件”分解为可重用、模块化的软件组件和抽象。
fpcc13 天前
c++·cuda
并行编程实战—CUDA编程的占用率一般接触过电脑的都会知道,如果电脑卡顿了,很有可能是CPU占用率太高了,导致任务无法及时处理过来。但可能很多人对显卡(GPU)的占用率并不敏感,毕竟大多数的应用场景对GPU的要求并不高。即使是要求很严格的游戏来说,大多也对主流的显卡支持的很好,普通人根本感觉不出来。 当然,对于更吃GPU存在的专业图形处理和视频处理,一般人也接触不到,所以GPU的占用率一般都是开发人员在进行大规模的并行开发时,才会有针对性的进行处理。 正如Windows上有任务管理器而Linux上有top,htop等命令来查看cpu的占用
Peter·Pan爱编程14 天前
笔记·cuda
NVIDIA DKMS 驱动构建失败修复笔记在 Ubuntu 22.04 系统上安装 NVIDIA 580 驱动时遇到 DKMS 构建失败:同时伴随的错误:
清@尘14 天前
nvidia·cuda
查看显卡支持版本打开cmd命令NVIDIA-smi可安装的最高CUDA版本为12.92、CUDA下载 官网: https://developer.nvidia.com/cuda-toolkit-archive
fpcc15 天前
c++·cuda
并行编程实战——CUDA编程的并行前缀和Prefix Sum,前缀和,也叫做扫描。它是一种应用在并行计算中的基础的算法。有点类似于一些数字处理的游戏。说白了就是从给定的输入序列中获取指定方式的累计操作结果的一种方法。这种操作方式可以是和也可以是差、积等。 这样说可能不太好理解,看一个前缀和(累加)简单的例子就明白了: 输入序列:1 2 3 4 5 6 输出序列:1 3 6 10 15 21 这种算法分为两种情况即(以和为例): 包含扫描(inclusive scan):如果输入序列定义为An,输出序列定义为Bn,则Bn[i] = An[0]+…
小米的修行之路15 天前
nvidia·tensorrt·cuda·cudnn
NVIDI核心板cuda, cudnn,tensorrt安装方法1.jetson系列各种型号简介:2.nvidia jetson模块载板:3.cuda, cudnn,tensorrt二次开发包安装:
冬风诉15 天前
c++·cuda
cuda核函数计算线程索引核函数的基本使用blockDim表示一个线程块里有多少个线程。blockIdx表示当前线程块在整个网格中是第几块。