cuda

安全二次方security²6 小时前
c++·人工智能·nvidia·cuda·内存空间指定符·__shared__·__device__
CUDA C++编程指南(7.2)——C++语言扩展之变量内存空间指定符变量内存空间指定符表示设备上变量的内存位置。在设备代码中声明的自动变量,如果未使用本节描述的__device__、__shared__或__constant__内存空间限定符,通常存放在寄存器中。但在某些情况下,编译器可能会选择将其放置在本地内存中,这可能会对性能产生不利影响,具体细节请参阅设备内存访问。
安全二次方security²7 小时前
c++·人工智能·nvidia·cuda·cuda编程·global·函数执行空间指定符
CUDA C++编程指南(7.1)——C++语言扩展之函数执行空间指定符函数执行空间限定符用于指定函数是在主机上执行还是在设备上执行,以及是否可以从主机或设备调用。__global__执行空间说明符将函数声明为内核。此类函数具有以下特性:
八位数花园2 天前
pytorch·cuda·知识图谱嵌入
PyTorch-CUDA镜像支持Knowledge Graph Embedding吗?在当今知识密集型AI应用的浪潮中,如何高效地从海量结构化数据中提取语义关系,已成为自然语言处理与智能推理系统的核心挑战。知识图谱(Knowledge Graph, KG)作为组织世界知识的重要形式,其下游任务如链接预测、三元组分类和推荐系统,越来越依赖于一种关键技术——知识图谱嵌入(Knowledge Graph Embedding, KGE)。这类模型需要对百万级实体进行高维向量表示学习,并频繁执行张量运算与梯度更新,对计算资源提出了极高要求。
KIDGINBROOK3 天前
cuda·deepseek·deepep
DeepSeek DeepEP学习(五)Hybrid-EP dispatchnvidia官方最近发布了Hybrid-EP,已经开源在DeepEP仓库,整体架构类似DeepEP的normal,相对DeepEP,Hybrid-EP降低了对SM的占用,并且在超节点表现更好。
被制作时长两年半的个人练习生4 天前
attention·cuda
【FlashAttention】 FA2与FA1算法区别辨析看了几篇关于FlashAttention2的文章,对于其中移除冗余的CUDA操作这个算法优化进行了一个综合梳理。 https://zhuanlan.zhihu.com/p/1993815603383902344 https://zhuanlan.zhihu.com/p/668888063 https://zhuanlan.zhihu.com/p/665170554
程序员老周6664 天前
人工智能·深度学习·语言模型·大模型·transformer·gpu算力·cuda
10.一文学会GPU与cuda原理,并从其原理来理解FlashAttentioncuda的每个block对应gpu中的每个sm(stream multiprocessor ), cuda的一个block可以分为多个warp,一个warp内有32个线程(在不同的数据上执行相同指令)
403240734 天前
linux·opencv·计算机视觉·nvidia·cuda·jetson
【2026最新】Jetson全系列安装支持CUDA加速的OpenCV 4.10保姆级教程(适配Jetpack 6/5及Orin/Xavier/Nano等)在 NVIDIA Jetson 边缘计算平台上(如 Jetson AGX Orin, Orin NX, Xavier NX, Nano 等),如果你设备的 OpenCV 不支持 CUDA 加速(仅 CPU 版本)。对于从事计算机视觉(CV)开发的工程师来说,无法利用 GPU 加速会极大地限制模型推理、图像预处理的效率。
Yongqiang Cheng4 天前
cuda·programming·cuda c++
CUDA Programming Guide: 2.1. Intro to CUDA C++CUDA and the CUDA Programming Guide https://docs.nvidia.com/cuda/cuda-programming-guide/index.html
明洞日记8 天前
c++·图像处理·算法·ai·图形渲染·gpu·cuda
【CUDA手册002】CUDA 基础执行模型:写出第一个正确的 Kernel在医学图像处理场景中(例如 CT / MRI 切片),输入数据通常以二维矩阵形式存在。将这类数据映射到 GPU 上并行处理时,真正需要解决的问题并不复杂:
明洞日记8 天前
c++·图像处理·算法·ai·图形渲染·gpu·cuda
【CUDA手册004】一个典型算子的 CUDA 化完整流程在本篇中,我们将以医学图像处理中最基础的“二值化阈值算子(Thresholding)”为例,演示如何将一个 C++ 算子完整地迁移到 CUDA。
小烤箱9 天前
cuda·并行计算·感知算法
CUDA 编程完全理解系列(第四篇):硬件视角下的索引变量与分级内存机制前三篇文章中,我们理解了 GPU 的设计哲学(用并发隐藏延迟)和硬件的工作流程(GigaThread 分配 Block,Warp Scheduler 轮流执行)以及dim3的底层逻辑。
linweidong9 天前
二叉树·cuda·内存泄漏·寄存器·c++面试·c++面经·混合编译
中科曙光C++面试题及参考答案C和C++作为后端开发中常用的编程语言,二者存在继承与发展的关系,也有核心层面的差异,这些差异体现在设计理念、编程范式、语法特性等多个维度,在部署和实际开发中会直接影响代码的编写、编译和运行逻辑。
抠头专注python环境配置9 天前
人工智能·pytorch·windows·深度学习·gpu·环境配置·cuda
2026终极诊断指南:解决Windows PyTorch GPU安装失败,从迷茫到确定目录免责声明:这不是一篇传统教程 (熟手请全部跳过)第一部分:5分钟自我诊断系统(90%的问题可在此定位)
chinamaoge10 天前
cuda·tensorrt plugin·tensorrt llm
NVIDIA大模型推理框架:TensorRT-LLM软件流程(四)探究TensorRT LLM自定义算子调用流程
love530love10 天前
人工智能·windows·python·cuda·comfyui·triton·comfy-kitchen
突破 ComfyUI 环境枷锁:RTX 3090 强行开启 comfy-kitchen 官方全后端加速库实战https://pypi.org/project/comfy-kitchen/https://github.com/Comfy-Org/comfy-kitchen
心 爱心 爱11 天前
pip·cuda·隔离环境
pip 隔离环境内 安装 cuda 113 不覆盖原有的全局 cuda 115需要先在服务器上安装CUDA 11.3(独立安装,不覆盖现有11.5),之后再按之前的方法配置虚拟环境专属使用CUDA 11.3,以下是完整的CUDA 11.3安装+虚拟环境隔离配置流程:
小烤箱11 天前
自动驾驶·cuda·并行计算·感知算法
CUDA 编程完全理解系列(第二篇):从 Block 生命周期理解调度在第一篇中,我们从设计哲学层面理解了为什么 GPU 需要大量线程来隐藏内存延迟。下面我们以厨师炒菜为例,复习一下上一篇的核心思想。厨师(核心)炒菜太快,但是配菜时间太长,所以多加几个灶台和配菜地方,厨师优先去准备好的灶台工作,其他灶台备菜,厨师工作完毕,然后“瞬间移动”去其准备好的灶台继续工作,而行政总厨(warp scheduler)负责调度,最大限度发挥厨师的工作效率,减少其等待切配的时间。
KIDGINBROOK11 天前
gpu·cuda·blackwell
Blackwell架构学习最近学习了一下Blackwell相关的架构,本文整理一下,最大的感受是看到GPU越来越NPU。首先约定一下后续的符号,假设TensorCore处理的D = A x B + D,A和B为bf16,D为fp32。
REDcker11 天前
架构·gpu·显卡·nvidia·cuda·英伟达·演进
Nvidia英伟达显卡型号发布史与架构演进详解英伟达显卡的发展史,核心主线是 GPU架构的迭代 与 GeForce产品线的演进。以下将按时间顺序,为您梳理两大主线的关键节点。
小烤箱12 天前
自动驾驶·硬件架构·cuda·并行计算·感知算法
CUDA 编程完全理解系列(第一篇):GPU 的设计哲学与硬件架构基础当你打开 Autoware CenterPoint 的源码时,会看到大量 CUDA kernel 和核函数调用。很多人的反应是"代码太复杂,看不懂"。但其实,CUDA 的复杂性不在代码层面,而在思维模式——它要求你用"数据并行"的方式重新思考问题。