cuda

王小义笔记10 小时前
llm·transformer·cuda
CUDA 版本下 Transformers 报错排查与解决办法最近在学习和训练多模态大模型时,执行训练脚本:程序启动后立即报错:随后引发:很多同学第一反应会认为是 CUDA 版本不兼容,实际上问题往往出在 PyTorch 与 Transformers 版本不匹配。
努力的章鱼bro2 天前
c++·cuda
CUDA编程模型CUDA 编程模型是一种用于对大规模并行处理器进行编程的编程模型。根据《NVIDIA CUDA C++ 编程指南》,CUDA 编程模型中有三个关键抽象:
努力的章鱼bro5 天前
c++·人工智能·cuda
CUDA编程入门硬件:NVIDIA GPU软件:CUDA Toolkit(提供 nvcc 编译器、CUDA 头文件、库文件)
June`9 天前
人工智能·cuda
并行计算的本质:为何需要它???目录1.前言2.背景:并行计算为什么必然出现3.软件视角理解并行性3.1指令并行3.2数据并行4.数据划分的两种核心策略
爱听歌的周童鞋13 天前
tensorrt·cuda·语义分割·高性能·yolo26-sem
YOLO26-Sem推理详解及部署实现Ultralytics 最近更新了 Semantic Segmentation 语义分割任务的支持,本篇文章梳理下 YOLO26-Sem 的预处理和后处理流程,顺便让 tensorRT_Pro 支持 YOLO26-Sem
fpcc13 天前
c++·cuda
并行编程实战——CUDA基础的知识点前面已经对CUDA编程进行了非常详细的分析和说明,理论上讲,应该对CUDA的知识点有了一个整体脉络清晰的了解和学习。但在理解了这些内容后,会有一个问题。在实践中如何使用,如何用自己的语言将这些内容组织出来。特别是在面对面试等特定的场景下,如何能够将它们系统完整的表述清楚,成为了一个检查对CUDA理解程度的一个重要方式。
Together_CZ13 天前
virtualenv·nvidia·cuda·cudnn·rtx 5060
Windows 下 CUDA / cuDNN / PyTorch GPU 训练环境搭建完整指南:虚拟环境与系统级环境两种方案Windows 下 CUDA / cuDNN / PyTorch GPU 训练环境搭建完整指南:虚拟环境与系统级环境两种方案
AI小小怪15 天前
linux·nvidia·cuda
保姆级教程:Ubuntu 22.04 安装 NVIDIA GPU 驱动 + CUDA 12.6(RTX 3080 显卡)本文记录了一次从驱动损坏到成功安装的全过程,包含清理、编译问题解决、全局环境配置等完整步骤,适用于多卡服务器场景。
wj30558537818 天前
python·wsl·cuda·uv·comfyui
课程 1:WSL + uv + ComfyUI 环境选择说明说明为什么本次不使用 Conda,而使用 uv 管理 ComfyUI 环境;同时说明 WSL、NVIDIA 驱动、CUDA、PyTorch CUDA wheel 之间的关系。
wj30558537821 天前
python·cuda·comfyui
课程 5:将官方 LTX-2.3 工作流改造成 GGUF 主模型工作流说明如何使用官方 Image to Video (LTX-2.3) 模板作为基础,并将主模型替换为 Sulphur-2 GGUF。
fpcc22 天前
c++·cuda
并行编程实战——CUDA编程的打印输出在前面的CUDA调试中给出了很多种方法,重点介绍了使用IDE相关的调试。但实际在某些情况下,不少开发者还是更青睐直接打印数据结果。特别是可能无法使用IDE的场景下,这种打印可能起着重要的作用。 那么CUDA编程中的打印数据和主机应用中的普通编程打印有什么不一样呢?本文将对其进行重点的分析。
(initial)24 天前
人工智能·cuda
B-05. Unified Memory:Page Fault、Prefetch、Advise 的性能边在 B-01 到 B-04,我们一直在优化“数据已经在 GPU 这边以后”的访问效率:合并访问、共享内存、寄存器、L2 驻留。 但工程里还有一个更早的问题:数据到底何时、以什么粒度、由谁搬到 GPU。 Unified Memory(UM)把这件事交给运行时自动处理,开发体验很好;性能上却常出现“能跑但慢、偶发抖动、首轮异常慢”的现象。
zhoupenghui1681 个月前
人工智能·pytorch·python·gru·cuda
如何设置PyTorch程序在 GPU上运行nvidia-smi命令:显示的是驱动支持的最高 CUDA 版本,而不是必须安装的版本Mac (M系列: M1/M2/M3芯片): 无需此步骤,直接安装 PyTorch 即可支持 MPS, 命令(无需 CUDA)如下:
weixin_377634841 个月前
cuda
【CUDA版本冲突】Driver/library version mismatch同时 nvcc --version 显示 CUDA Toolkit 版本为 11.5,一切正常,只有 nvidia-smi 无法工作。
Hi202402171 个月前
人工智能·自动驾驶·cuda·机器视觉
CUDA-BEVFusion 开箱即用镜像使用指南为了避免繁琐的环境配置,本文提供了一个预置环境的 Docker 镜像,帮助开发者快速上手 CUDA-BEVFusion。该镜像包含了完整的训练与推理依赖,用户无需从零搭建环境即可开始模型训练、量化和部署。
fpcc1 个月前
人工智能·cuda
并行编程实战——异步编程的屏障的整体分析异步编程无论是在CPU编程还是在设计亦或是在多线程中都分析的太多了,但是为了把CUDA中的相关异步部分分析清楚,还是需要简单的赘述一下。所谓异步就是大家各搞各的互不关心,只是在达到一个特定的状态后会发一个通知。至于发了通知会怎么样,除了想要这个状态结果的线程会关心,发通知的异步任务是不Care的。 明白了什么是异步编程,就知道这种编程很爽又很麻烦。因为,异步可以不用考虑太多的复杂的同步机制,但实现难度上蓦然上了几个台阶。
starvapour1 个月前
python·ai·cuda
CUDA_VISIBLE_DEVICES与nvidia-smi显卡序号不一致的问题情况描述: 物理插槽从上到下:RTX5090、RTX3090、RTX5090 nvidia-smi顺序:RTX5090、RTX3090、RTX5090 CUDA_VISIBLE_DEVICES实测顺序:RTX5090、RTX5090、RTX3090
大数据在线1 个月前
cuda·昇腾·cann·英伟达·deepseek
AI计算新生态:旧地图找不到新大陆沿着旧地图,永远找不到新大陆。当英伟达GPU+CUDA花费数年构筑起足够高的AI计算生态壁垒时,试图通过“抄作业”的方式固然短时间之内可获得一定的份额,但这种“亦步亦趋”的捷径,本质上是基于他人的生态,最终无法在市场中实现真正的突围。
qq762118221 个月前
cuda
windows10 升级cuda 版本在cmd 输入nvidia-smi ,回车打开 https://www.nvidia.cn/geforce/drivers/
yx868xy1 个月前
c++·cuda
Cuda加速直线拟合对于一些工业产线上收集来的三维数据,由于环境的复杂,数据量比较大,通常需要对数据进行清洗,预处理,加速等操作。 现在提供一种cuda加速的方式,对采集到的深度数据(Z方向数据)做预处理,进行直线拟合的方法。适用于定长数据数组