cuda

basketball61613 天前
人工智能·microsoft·nvidia·cuda
AI Infra 硬件体系与编程模型:17. CUDA编程基础:底层驱动 API 调用在CUDA开发的入门阶段,我们接触的几乎都是Runtime API(运行时API):cudaMalloc、cudaMemcpy、<<<>>>核函数启动……这些接口简单易用,几行代码就能跑起一个GPU程序。但很多人不知道,Runtime API 只是一层封装,它的底层是更基础、更灵活的 Driver API(驱动API)。
fpcc14 天前
c++·cuda
并行编程实战——CUDA编程的pipelines对于学计算机的人来说,pipelines是一个经常听到的名词。在CPU的指令处理中,流水线处理机制是典型的应用代表。所谓流水线就是把任务拆成多个部分,让任务可以并行操作。 这里的重点就在于并行,提高并行,其中隐含着同步机制的处理。比如流水打乱后,如何进行新的任务流水的处理。
basketball61616 天前
人工智能·nvidia·cuda
AI Infra 硬件体系与编程模型:14. CUDA编程基础:事件与精确性能测量在之前的系列文章中,我们学习了CUDA的核函数、内存模型、共享内存优化和CUDA流技术。但所有这些优化都建立在一个前提之上:我们能够精确地测量程序的性能。
kyle~16 天前
人工智能·nvidia·cuda
推理部署---CUDA 执行模型(SM、Block、Warp 与 SIMT)CUDA(Compute Unified Device Architecture)是NVIDIA推出的通用并行计算平台和编程模型,其核心设计哲学是单指令多线程(Single-Instruction Multiple-Thread, SIMT),通过将计算任务分解为大量轻量级线程,利用GPU的大规模并行计算能力加速应用程序。
June`16 天前
开发语言·cuda
如何组织一个并行程序目录背景:块+线程建立索引二维矩阵加法不同模式的对比如何查询硬件信息通过前面的学习,我们知道一个线程是通过一堆的坐标进行定位的,本期就详细的介绍每一个线程是怎么确定唯一的索引,然后建立并行计算,并且不同的线程组织形式是怎样影响性能的
basketball61616 天前
人工智能·nvidia·cuda
AI Infra 硬件体系与编程模型:15. CUDA编程基础:混合精度计算在CUDA性能优化的进阶路径上,混合精度计算是一道必须跨过的门槛。从AI大模型训练到高性能科学计算,混合精度已经成为工业界的标准配置——它能在几乎不损失最终精度的前提下,将矩阵运算性能提升数倍,同时显存占用减半。
June`16 天前
c++·人工智能·cuda
CUDA执行模型深入刨析目录概述架构发展图SM线程束SIMD与SIMTCUDA编程的组件与逻辑Fermi 架构Kepler 架构
June`17 天前
算法·cuda
CUDA程序效率如何计算以及工具如何使用目录背景:c语言CUDA程序如何测效率想获得最高的效率,需要反复的优化,以及对硬件和编程细节的详细了解,怎么评估效率,时间是个很直观的测量方式。
插件开发17 天前
c++·gpu·cuda
CUDA11-VS2015安装-工具链测试-Helloworld程序下载cuda_11.0.2_451.48_win10,如下图所示:按默认指引安装。这是一个标准的CUDA向量加法示例代码。我来详细分析其结构和关键点:
虎妞050018 天前
pytorch·深度学习·ai·模型部署·cuda
PyTorch 2.0 生产级部署与性能优化指南torch.compile 通过图捕获和算子融合将训练速度提升 30-200%。三种模式:default(平衡)、reduce-overhead(小 batch 优化)、max-autotune(极致推理性能)。
CV-deeplearning18 天前
opencv·计算机视觉·pip·nvidia·cuda·gpu加速·cv-cuda
NVIDIA CV-CUDA:GPU 全流程加速计算机视觉,pip 一键安装替代 OpenCV,微软/腾讯/百度/字节全在用,云级图像处理吞吐量飙升 10 倍💡 还在用 CPU 版 OpenCV 做图像预处理?你的 GPU 在推理前白白闲置 80% 的时间!NVIDIA 联合字节跳动开源的 CV-CUDA,把图像解码、缩放、色彩转换、数据增强等全流程搬到 GPU,吞吐量飙升 10 倍+,延迟降低 90%。微软 Bing 视觉搜索、腾讯云音视频 PaaS、百度 AI 都在用。pip 一行安装,C++ 和 Python 双语言支持,Apache 2.0 开源,v0.16.0 最新版已支持 CUDA 13 和 Blackwell 架构。
王小义笔记20 天前
llm·transformer·cuda
CUDA 版本下 Transformers 报错排查与解决办法最近在学习和训练多模态大模型时,执行训练脚本:程序启动后立即报错:随后引发:很多同学第一反应会认为是 CUDA 版本不兼容,实际上问题往往出在 PyTorch 与 Transformers 版本不匹配。
努力的章鱼bro22 天前
c++·cuda
CUDA编程模型CUDA 编程模型是一种用于对大规模并行处理器进行编程的编程模型。根据《NVIDIA CUDA C++ 编程指南》,CUDA 编程模型中有三个关键抽象:
努力的章鱼bro25 天前
c++·人工智能·cuda
CUDA编程入门硬件:NVIDIA GPU软件:CUDA Toolkit(提供 nvcc 编译器、CUDA 头文件、库文件)
June`1 个月前
人工智能·cuda
并行计算的本质:为何需要它???目录1.前言2.背景:并行计算为什么必然出现3.软件视角理解并行性3.1指令并行3.2数据并行4.数据划分的两种核心策略
爱听歌的周童鞋1 个月前
tensorrt·cuda·语义分割·高性能·yolo26-sem
YOLO26-Sem推理详解及部署实现Ultralytics 最近更新了 Semantic Segmentation 语义分割任务的支持,本篇文章梳理下 YOLO26-Sem 的预处理和后处理流程,顺便让 tensorRT_Pro 支持 YOLO26-Sem
fpcc1 个月前
c++·cuda
并行编程实战——CUDA基础的知识点前面已经对CUDA编程进行了非常详细的分析和说明,理论上讲,应该对CUDA的知识点有了一个整体脉络清晰的了解和学习。但在理解了这些内容后,会有一个问题。在实践中如何使用,如何用自己的语言将这些内容组织出来。特别是在面对面试等特定的场景下,如何能够将它们系统完整的表述清楚,成为了一个检查对CUDA理解程度的一个重要方式。
Together_CZ1 个月前
virtualenv·nvidia·cuda·cudnn·rtx 5060
Windows 下 CUDA / cuDNN / PyTorch GPU 训练环境搭建完整指南:虚拟环境与系统级环境两种方案Windows 下 CUDA / cuDNN / PyTorch GPU 训练环境搭建完整指南:虚拟环境与系统级环境两种方案
AI小小怪1 个月前
linux·nvidia·cuda
保姆级教程:Ubuntu 22.04 安装 NVIDIA GPU 驱动 + CUDA 12.6(RTX 3080 显卡)本文记录了一次从驱动损坏到成功安装的全过程,包含清理、编译问题解决、全局环境配置等完整步骤,适用于多卡服务器场景。
wj3055853781 个月前
python·wsl·cuda·uv·comfyui
课程 1:WSL + uv + ComfyUI 环境选择说明说明为什么本次不使用 Conda,而使用 uv 管理 ComfyUI 环境;同时说明 WSL、NVIDIA 驱动、CUDA、PyTorch CUDA wheel 之间的关系。