cuda

人工智能训练5 天前
运维·前端·人工智能·python·ai编程·cuda·vllm
【极速部署】Ubuntu24.04+CUDA13.0 玩转 VLLM 0.15.0:预编译 Wheel 包 GPU 版安装全攻略本次安装锁定以下版本组合(适配 Ubuntu24.04 x86_64 架构 + RTX A6000 显卡):
X-Vision5 天前
visual studio·cuda
Visual Studio 2022中配置cuda环境在配置VS2022前,你需要先安装好以下软件,否则配置会失败:右键项目 -> 属性(注意:顶部“配置”选“Debug”,“平台”选“x64”,CUDA驱动API仅支持64位),按以下路径配置:
安全二次方security²5 天前
c++·人工智能·nvidia·cuda·断点·断言·性能分析计数器函数
CUDA C++编程指南(7.31&32&33&34)——C++语言扩展之性能分析计数器函数和断言、陷阱、断点函数每个多处理器都配备了一组16个硬件计数器,应用程序可以通过调用__prof_trigger()函数,用一条指令来递增这些计数器。
安全二次方security²7 天前
c++·人工智能·nvidia·cuda·dpx·cuda c++编程指南
CUDA C++编程指南(7.25)——C++语言扩展之DPXDPX是一组函数,能够查找最多三个16位和32位有符号或无符号整数参数的最小值和最大值,以及融合加法和最小/最大值操作,并可选ReLU(钳制到零clamping to zero):
不教书的塞涅卡8 天前
pytorch·ssh·cuda
SSH远程接入PyTorch-CUDA-v2.9镜像,随时随地训练大模型在今天的大模型时代,一个常见的尴尬场景是:你手头只有一台轻薄本,却需要调试一个动辄几十亿参数的Transformer模型。本地跑不动,远程服务器环境又五花八门——有人用CUDA 11.8,有人装的是12.1;Python版本不一致、PyTorch编译选项不同,甚至连cuDNN版本都对不上。结果就是,“在我机器上明明能跑”的经典难题反复上演。
安全二次方security²11 天前
c++·人工智能·nvidia·cuda·投票函数·匹配函数·vote
CUDA C++编程指南(7.19&20)——C++语言扩展之Warp投票函数和Warp匹配函数弃用通知:__any、__all和__ballot已在CUDA 9.0中对所有设备弃用。移除通知:当目标设备的计算能力为7.x或更高时,__any、__all和__ballot将不再可用,应改用它们的同步变体。
安全二次方security²12 天前
c++·人工智能·nvidia·cuda·内存空间谓词函数·内存空间转化函数·address space
CUDA C++编程指南(7.15&16)——C++语言扩展之内存空间谓词和转化函数如果参数是空指针,本节描述的函数行为未定义。如果ptr包含全局内存空间中对象的通用地址,则返回1,否则返回0。
安全二次方security²12 天前
c++·人工智能·nvidia·cuda·内存栅栏函数·同步函数·syncthreads
CUDA C++编程指南(7.5&6)——C++语言扩展之内存栅栏函数和同步函数CUDA编程模型假设设备采用弱序内存模型(weakly-ordered memory model),这意味着CUDA线程将数据写入共享内存、全局内存、页锁定主机内存或对等设备内存的顺序,并不一定是另一个CUDA线程或主机线程观测到的写入顺序。若两个线程在没有同步的情况下对同一内存位置进行读写操作,将导致未定义行为。
安全二次方security²13 天前
c++·人工智能·nvidia·cuda·内存空间指定符·__shared__·__device__
CUDA C++编程指南(7.2)——C++语言扩展之变量内存空间指定符变量内存空间指定符表示设备上变量的内存位置。在设备代码中声明的自动变量,如果未使用本节描述的__device__、__shared__或__constant__内存空间限定符,通常存放在寄存器中。但在某些情况下,编译器可能会选择将其放置在本地内存中,这可能会对性能产生不利影响,具体细节请参阅设备内存访问。
安全二次方security²13 天前
c++·人工智能·nvidia·cuda·cuda编程·global·函数执行空间指定符
CUDA C++编程指南(7.1)——C++语言扩展之函数执行空间指定符函数执行空间限定符用于指定函数是在主机上执行还是在设备上执行,以及是否可以从主机或设备调用。__global__执行空间说明符将函数声明为内核。此类函数具有以下特性:
八位数花园15 天前
pytorch·cuda·知识图谱嵌入
PyTorch-CUDA镜像支持Knowledge Graph Embedding吗?在当今知识密集型AI应用的浪潮中,如何高效地从海量结构化数据中提取语义关系,已成为自然语言处理与智能推理系统的核心挑战。知识图谱(Knowledge Graph, KG)作为组织世界知识的重要形式,其下游任务如链接预测、三元组分类和推荐系统,越来越依赖于一种关键技术——知识图谱嵌入(Knowledge Graph Embedding, KGE)。这类模型需要对百万级实体进行高维向量表示学习,并频繁执行张量运算与梯度更新,对计算资源提出了极高要求。
KIDGINBROOK16 天前
cuda·deepseek·deepep
DeepSeek DeepEP学习(五)Hybrid-EP dispatchnvidia官方最近发布了Hybrid-EP,已经开源在DeepEP仓库,整体架构类似DeepEP的normal,相对DeepEP,Hybrid-EP降低了对SM的占用,并且在超节点表现更好。
被制作时长两年半的个人练习生17 天前
attention·cuda
【FlashAttention】 FA2与FA1算法区别辨析看了几篇关于FlashAttention2的文章,对于其中移除冗余的CUDA操作这个算法优化进行了一个综合梳理。 https://zhuanlan.zhihu.com/p/1993815603383902344 https://zhuanlan.zhihu.com/p/668888063 https://zhuanlan.zhihu.com/p/665170554
程序员老周66617 天前
人工智能·深度学习·语言模型·大模型·transformer·gpu算力·cuda
10.一文学会GPU与cuda原理,并从其原理来理解FlashAttentioncuda的每个block对应gpu中的每个sm(stream multiprocessor ), cuda的一个block可以分为多个warp,一个warp内有32个线程(在不同的数据上执行相同指令)
4032407317 天前
linux·opencv·计算机视觉·nvidia·cuda·jetson
【2026最新】Jetson全系列安装支持CUDA加速的OpenCV 4.10保姆级教程(适配Jetpack 6/5及Orin/Xavier/Nano等)在 NVIDIA Jetson 边缘计算平台上(如 Jetson AGX Orin, Orin NX, Xavier NX, Nano 等),如果你设备的 OpenCV 不支持 CUDA 加速(仅 CPU 版本)。对于从事计算机视觉(CV)开发的工程师来说,无法利用 GPU 加速会极大地限制模型推理、图像预处理的效率。
Yongqiang Cheng17 天前
cuda·programming·cuda c++
CUDA Programming Guide: 2.1. Intro to CUDA C++CUDA and the CUDA Programming Guide https://docs.nvidia.com/cuda/cuda-programming-guide/index.html
明洞日记21 天前
c++·图像处理·算法·ai·图形渲染·gpu·cuda
【CUDA手册002】CUDA 基础执行模型:写出第一个正确的 Kernel在医学图像处理场景中(例如 CT / MRI 切片),输入数据通常以二维矩阵形式存在。将这类数据映射到 GPU 上并行处理时,真正需要解决的问题并不复杂:
明洞日记21 天前
c++·图像处理·算法·ai·图形渲染·gpu·cuda
【CUDA手册004】一个典型算子的 CUDA 化完整流程在本篇中,我们将以医学图像处理中最基础的“二值化阈值算子(Thresholding)”为例,演示如何将一个 C++ 算子完整地迁移到 CUDA。
小烤箱22 天前
cuda·并行计算·感知算法
CUDA 编程完全理解系列(第四篇):硬件视角下的索引变量与分级内存机制前三篇文章中,我们理解了 GPU 的设计哲学(用并发隐藏延迟)和硬件的工作流程(GigaThread 分配 Block,Warp Scheduler 轮流执行)以及dim3的底层逻辑。
linweidong22 天前
二叉树·cuda·内存泄漏·寄存器·c++面试·c++面经·混合编译
中科曙光C++面试题及参考答案C和C++作为后端开发中常用的编程语言,二者存在继承与发展的关系,也有核心层面的差异,这些差异体现在设计理念、编程范式、语法特性等多个维度,在部署和实际开发中会直接影响代码的编写、编译和运行逻辑。