技术栈
cuda
哦豁灬
3 天前
学习
·
cuda
CUDA 学习(3)——CUDA 初步实践
CUDA 中提供了 blockIdx, threadIdx, blockDim, GridDim来定位发起 thread,下面发起 1 个 grid,里面有 2 个 block,每个 block 里有 5 个 threads。
扫地的小何尚
3 天前
c++
·
人工智能
·
深度学习
·
gpu
·
nvidia
·
cuda
NVIDIA TensorRT 深度学习推理加速引擎详解
在当今人工智能和深度学习快速发展的时代,模型推理性能已成为实际应用中的关键瓶颈。无论是需要实时响应的自动驾驶系统,还是要处理海量数据的推荐引擎,亦或是资源受限的边缘设备上的AI应用,都对推理速度、延迟和能耗提出了严苛的要求。NVIDIA TensorRT作为一个高性能的深度学习推理优化器和运行时环境,正是为解决这些挑战而生。
哦豁灬
5 天前
学习
·
cuda
CUDA 学习(2)——CUDA 介绍
GeForce 256 是英伟达 1999 年开发的第一个 GPU,最初用作显示器上渲染高端图形,只用于像素计算。
拿铁加椰果
8 天前
pytorch
·
docker
·
容器
·
cuda
docker 内 pytorch cuda 不可用
拉的官方 docker 仓库里的镜像 nvidia/cuda:12.4.1-cudnn-devel-rockylinux8
陈 洪 伟
16 天前
cuda
·
共享内存
·
全局内存
CUDA编程(4):共享内存:减少全局内存访问、合并全局内存访问
目录1 共享内存概述1.1 共享内存1.2 共享内存分配1.3 为什么要使用共享内存2 减少全局内存访问----以规约求和为例
System_sleep
17 天前
windows
·
python
·
llama
·
cuda
win11编译llama_cpp_python cuda128 RTX30/40/50版本
Geforce 50xx系显卡最低支持cuda128,llama_cpp_python官方源只有cpu版本,没有cuda版本,所以自己基于0.3.5版本源码编译一个RTX 30xx/40xx/50xx版本。
nuczzz
18 天前
kubernetes
·
k8s
·
gpu
·
nvidia
·
cuda
NVIDIA k8s-device-plugin源码分析与安装部署
在《kubernetes Device Plugin原理与源码分析》一文中,我们从源码层面了解了kubelet侧关于device plugin逻辑的实现逻辑,本文以nvidia管理GPU的开源github项目k8s-device-plugin为例,来看看设备插件侧的实现示例。
真昼小天使daisuki
21 天前
linux
·
cuda
最简单的方式:如何在wsl2上配置CDUA开发环境
这篇文章可以帮助你以一个最为简单的方式迈出CUDA的第一步,从此一入CUDA深似海,从此头发是路人。前提:你需要在Windows 11上:
Cony_14
21 天前
windows
·
vscode
·
cmake
·
cuda
Windows系统中在VSCode上配置CUDA环境
注:Windows 端笔者暂时没找到直接在VSCode中直接调试的方法,不过在Visual Studio中可以。
NullPointerExpection
22 天前
c++
·
ffmpeg
·
makefile
·
cuda
ubuntu20.04已安装 11.6版本 cuda,现需要通过源码编译方式安装使用 cuda 加速的 ffmpeg 步骤
KIDGINBROOK
24 天前
gpu
·
cuda
DeepSeek DeepEP学习(一)low latency dispatch
为了优化延迟,low lantency使用卡间直接收发cast成fp8的数据的方式,而不是使用normal算子的第一步执行机间同号卡网络发送,再通过nvlink进行转发的两阶段方式。进一步地,normal算子的dispatch包含了notify_dispatch传输meta信息和dispatch传输实际数据两个kernel,而low lantency也省去了notify的过程,为此需要的代价就是显存占用较高,而且也需要配合deepseek版本的gemm。
System_sleep
25 天前
人工智能
·
pytorch
·
windows
·
python
·
编译
·
cuda
win11编译pytorchaudio cuda128版本流程
本篇续接自 win11编译pytorch cuda128版本流程,阅读前请先参考上一篇配置环境。访问https://kkgithub.com/pytorch/audio/archive/refs/tags/v2.6.0.tar.gz下载源码,下载后解压;
码上飞扬
1 个月前
cuda
深入浅出:CUDA是什么,如何利用它进行高效并行计算
在当今这个数据驱动的时代,计算能力的需求日益增加,特别是在深度学习、科学计算和图像处理等领域。为了满足这些需求,NVIDIA推出了CUDA(Compute Unified Device Architecture),这是一种并行计算平台和编程模型。本文将带你全面了解CUDA的基本概念、工作原理及其应用场景。
qxyywy
1 个月前
ide
·
visual studio
·
cuda
CUDA 安装 一直卡在Installing Nsight Visual Studio Edition
最近在安装CUDA的时候,CUDA 安装 一直卡在Installing Nsight Visual Studio Edition,莫名的一直卡在安装进行中这儿,过很久都没进度,如图 后面重新下载了12.6的进行安装也是如此 无论是local还是network,都是这样。度娘找了一堆资料依旧如此,百度AI给的提示如
Eloudy
2 个月前
量子计算
·
cuda
·
量子力学
ubuntu 22.04 cuda12.x 上 cutensor 1.6.2 版本环境搭建
ubuntu 22.04 cuda12.x 运行 cutensor 1.6.2 sample1.6.2 是比较久的cutensor 版本,但是nv对新的cuda 平台做了继续支持,故可以在cuda sdk 12上使用cutensor 1.6.2
软件开发和挖掘机技术
2 个月前
linux
·
运维
·
服务器
·
cuda
·
deepin
在深度Linux (Deepin) 20中安装Nvidia驱动
文章创作不易,麻烦大家点赞关注收藏一键三连。在Deepin上面跑Tensorflow, pytorch等人工智能框架不是一件容易的事情。特别是如果你要使用GPU,就得有nvidia的驱动。默认情况下Deepin系统自带的是nouveau开源驱动。这是没办法用tensorflow的。下面内容是如何在Deepin 20.3中安装nvidia驱动。
Channing Lewis
2 个月前
电脑
·
cuda
电脑要使用cuda需要进行什么配置
在电脑上使用CUDA(NVIDIA的并行计算平台和API),需要进行以下配置和准备:确保你的电脑拥有支持CUDA的NVIDIA显卡。 可以在NVIDIA官方CUDA支持显卡列表中查看显卡型号是否支持CUDA。
laugh12321
2 个月前
环境配置
·
tensorrt
·
cuda
·
c/c++
性能飞跃!TensorRT-YOLO 6.0 全面升级解析与实战指南
TensorRT-YOLO 6.0 引入了创新的多Context共享引擎机制,允许多个线程共享同一个Engine进行推理,最大化硬件资源利用率,同时显著降低内存占用。这一设计使得多任务并发推理更加高效,尤其适合需要同时处理多路视频流或大规模数据推理的场景。
蛔虫在他乡
2 个月前
pycharm
·
tensorflow
·
cuda
·
cudnn
tensorflow,cuda,cudnn,pycharm安装踩坑过程记录
其实已经进入后半程了,那就是cuda安装卸载出现的版本过多冲突的问题,记录一下(毕竟总能配好环境的对吧?) 参考 参考 这里查看显卡类型,是因为我在看别人说nvidia显卡保留三个东西,剩下的全部删除,我发现我保留的那三个只有一个,也就需要重新下载一下nvidia显卡了 然后这里我们可以看到CUDA推荐下载版本是12.7呵呵呵呵呵 这个官网都没更新到12.7的对应版本,我当时就是傻乎乎的跟这个推荐下载了12.6,导致后面的一系列问题,之前在笔记本上(无GPU的时候用tensorflow2.9.0还是比较稳
DWQY
3 个月前
cuda
ubuntu22.04降级安装CUDA11.3
环境:主机x64的ubuntu22.04,原有CUDA12.1,但是现在需要CUDA11.3,本篇文章介绍步骤。