cuda

哦豁灬3 天前
学习·cuda
CUDA 学习(3)——CUDA 初步实践CUDA 中提供了 blockIdx, threadIdx, blockDim, GridDim来定位发起 thread,下面发起 1 个 grid,里面有 2 个 block,每个 block 里有 5 个 threads。
扫地的小何尚3 天前
c++·人工智能·深度学习·gpu·nvidia·cuda
NVIDIA TensorRT 深度学习推理加速引擎详解在当今人工智能和深度学习快速发展的时代,模型推理性能已成为实际应用中的关键瓶颈。无论是需要实时响应的自动驾驶系统,还是要处理海量数据的推荐引擎,亦或是资源受限的边缘设备上的AI应用,都对推理速度、延迟和能耗提出了严苛的要求。NVIDIA TensorRT作为一个高性能的深度学习推理优化器和运行时环境,正是为解决这些挑战而生。
哦豁灬5 天前
学习·cuda
CUDA 学习(2)——CUDA 介绍GeForce 256 是英伟达 1999 年开发的第一个 GPU,最初用作显示器上渲染高端图形,只用于像素计算。
拿铁加椰果8 天前
pytorch·docker·容器·cuda
docker 内 pytorch cuda 不可用拉的官方 docker 仓库里的镜像 nvidia/cuda:12.4.1-cudnn-devel-rockylinux8
陈 洪 伟16 天前
cuda·共享内存·全局内存
CUDA编程(4):共享内存:减少全局内存访问、合并全局内存访问目录1 共享内存概述1.1 共享内存1.2 共享内存分配1.3 为什么要使用共享内存2 减少全局内存访问----以规约求和为例
System_sleep17 天前
windows·python·llama·cuda
win11编译llama_cpp_python cuda128 RTX30/40/50版本Geforce 50xx系显卡最低支持cuda128,llama_cpp_python官方源只有cpu版本,没有cuda版本,所以自己基于0.3.5版本源码编译一个RTX 30xx/40xx/50xx版本。
nuczzz18 天前
kubernetes·k8s·gpu·nvidia·cuda
NVIDIA k8s-device-plugin源码分析与安装部署在《kubernetes Device Plugin原理与源码分析》一文中,我们从源码层面了解了kubelet侧关于device plugin逻辑的实现逻辑,本文以nvidia管理GPU的开源github项目k8s-device-plugin为例,来看看设备插件侧的实现示例。
真昼小天使daisuki21 天前
linux·cuda
最简单的方式:如何在wsl2上配置CDUA开发环境这篇文章可以帮助你以一个最为简单的方式迈出CUDA的第一步,从此一入CUDA深似海,从此头发是路人。前提:你需要在Windows 11上:
Cony_1421 天前
windows·vscode·cmake·cuda
Windows系统中在VSCode上配置CUDA环境注:Windows 端笔者暂时没找到直接在VSCode中直接调试的方法,不过在Visual Studio中可以。
NullPointerExpection22 天前
c++·ffmpeg·makefile·cuda
ubuntu20.04已安装 11.6版本 cuda,现需要通过源码编译方式安装使用 cuda 加速的 ffmpeg 步骤
KIDGINBROOK24 天前
gpu·cuda
DeepSeek DeepEP学习(一)low latency dispatch为了优化延迟,low lantency使用卡间直接收发cast成fp8的数据的方式,而不是使用normal算子的第一步执行机间同号卡网络发送,再通过nvlink进行转发的两阶段方式。进一步地,normal算子的dispatch包含了notify_dispatch传输meta信息和dispatch传输实际数据两个kernel,而low lantency也省去了notify的过程,为此需要的代价就是显存占用较高,而且也需要配合deepseek版本的gemm。
System_sleep25 天前
人工智能·pytorch·windows·python·编译·cuda
win11编译pytorchaudio cuda128版本流程本篇续接自 win11编译pytorch cuda128版本流程,阅读前请先参考上一篇配置环境。访问https://kkgithub.com/pytorch/audio/archive/refs/tags/v2.6.0.tar.gz下载源码,下载后解压;
码上飞扬1 个月前
cuda
深入浅出:CUDA是什么,如何利用它进行高效并行计算在当今这个数据驱动的时代,计算能力的需求日益增加,特别是在深度学习、科学计算和图像处理等领域。为了满足这些需求,NVIDIA推出了CUDA(Compute Unified Device Architecture),这是一种并行计算平台和编程模型。本文将带你全面了解CUDA的基本概念、工作原理及其应用场景。
qxyywy1 个月前
ide·visual studio·cuda
CUDA 安装 一直卡在Installing Nsight Visual Studio Edition最近在安装CUDA的时候,CUDA 安装 一直卡在Installing Nsight Visual Studio Edition,莫名的一直卡在安装进行中这儿,过很久都没进度,如图 后面重新下载了12.6的进行安装也是如此 无论是local还是network,都是这样。度娘找了一堆资料依旧如此,百度AI给的提示如
Eloudy2 个月前
量子计算·cuda·量子力学
ubuntu 22.04 cuda12.x 上 cutensor 1.6.2 版本环境搭建ubuntu 22.04 cuda12.x 运行 cutensor 1.6.2 sample1.6.2 是比较久的cutensor 版本,但是nv对新的cuda 平台做了继续支持,故可以在cuda sdk 12上使用cutensor 1.6.2
软件开发和挖掘机技术2 个月前
linux·运维·服务器·cuda·deepin
在深度Linux (Deepin) 20中安装Nvidia驱动文章创作不易,麻烦大家点赞关注收藏一键三连。在Deepin上面跑Tensorflow, pytorch等人工智能框架不是一件容易的事情。特别是如果你要使用GPU,就得有nvidia的驱动。默认情况下Deepin系统自带的是nouveau开源驱动。这是没办法用tensorflow的。下面内容是如何在Deepin 20.3中安装nvidia驱动。
Channing Lewis2 个月前
电脑·cuda
电脑要使用cuda需要进行什么配置在电脑上使用CUDA(NVIDIA的并行计算平台和API),需要进行以下配置和准备:确保你的电脑拥有支持CUDA的NVIDIA显卡。 可以在NVIDIA官方CUDA支持显卡列表中查看显卡型号是否支持CUDA。
laugh123212 个月前
环境配置·tensorrt·cuda·c/c++
性能飞跃!TensorRT-YOLO 6.0 全面升级解析与实战指南TensorRT-YOLO 6.0 引入了创新的多Context共享引擎机制,允许多个线程共享同一个Engine进行推理,最大化硬件资源利用率,同时显著降低内存占用。这一设计使得多任务并发推理更加高效,尤其适合需要同时处理多路视频流或大规模数据推理的场景。
蛔虫在他乡2 个月前
pycharm·tensorflow·cuda·cudnn
tensorflow,cuda,cudnn,pycharm安装踩坑过程记录其实已经进入后半程了,那就是cuda安装卸载出现的版本过多冲突的问题,记录一下(毕竟总能配好环境的对吧?) 参考 参考 这里查看显卡类型,是因为我在看别人说nvidia显卡保留三个东西,剩下的全部删除,我发现我保留的那三个只有一个,也就需要重新下载一下nvidia显卡了 然后这里我们可以看到CUDA推荐下载版本是12.7呵呵呵呵呵 这个官网都没更新到12.7的对应版本,我当时就是傻乎乎的跟这个推荐下载了12.6,导致后面的一系列问题,之前在笔记本上(无GPU的时候用tensorflow2.9.0还是比较稳
DWQY3 个月前
cuda
ubuntu22.04降级安装CUDA11.3环境:主机x64的ubuntu22.04,原有CUDA12.1,但是现在需要CUDA11.3,本篇文章介绍步骤。