cuda

DeepVis Research2 天前
pytorch·深度学习·android studio·cuda·stablediffusion
【2025深度学习全家桶】Android Studio Otter + CUDA 11.8/12.1 离线安装包 | AI开发环境一键搞定🛑 入门 AI 开发,最难的竟然是配环境?作为一名 AI 小白或开发者,你是否遇到过这些让人抓狂的情况:
数据与后端架构提升之路2 天前
cuda·算子融合
深度解析 TeleTron:融合 CUDA 内核如何极致优化 HunyuanVideo 训练性能在 DiT (Diffusion Transformer) 模型(如 HunyuanVideo)的训练中,LayerNorm 和 AdaLayerNorm (AdaLN) 是计算图中出现频率极高的算子。原生的 PyTorch 实现往往受限于显存带宽(Memory Bound),导致频繁的内核启动和显存读写。
qijiabao41136 天前
人工智能·python·深度学习·机器学习·cuda
深度学习|可变形卷积DCNv3编译安装下载好可变形卷积DCNv3的源码点击传送门即可下载进入ops_dcnv3命令。检查当前目录是否为ops_dcnv3根目录也就是setup.py文件的目录
Pyeako7 天前
人工智能·pytorch·python·深度学习·gpu·cuda
深度学习--CUDA安装配置、pytorch库、torchvision库、torchaudio库安装CUDA 是 NVIDIA 为自家 GPU 打造的“计算引擎”,它让 GPU 不仅能处理图形,更能变成一个超级并行处理器,用来加速科学计算、人工智能、模拟等海量计算任务。
fpcc8 天前
cuda·并行编程
并行编程的突破一、回望2025时间忽然一恍,悄悄的2025年就要过去。回首这一年,经历了不少的技术点的突破。从设计层面的心得,到基础技术和模板技术的成长。再到各种工具包括AI辅助编程的引入以及对C++新标准的不断解决和学习突破。可以说是一个不断学习和不断总结的过程。在这个过程中,也结识了不少的新朋友和老朋友,互相借鉴共同进步。
wanzhong23339 天前
深度学习·学习·算法·cuda·高性能计算
CUDA学习5-矩阵乘法(共享内存版)在未使用共享存储器(Shared Memory)时,CUDA 矩阵乘法的计算逻辑是在 SM(流多处理器)的 CUDA Core 中执行的,临时数据会优先存在寄存器(Register) 中;但 A、B 矩阵的读取、C 矩阵的写入完全依赖全局存储器(Global Memory)
(initial)10 天前
硬件架构·cuda
A-02.GPU 硬件架构深度解析:解剖 Ampere, Hopper 与 Blackwell 的微观世界摘要:在第一章我们建立了异构计算的宏观视野。本章我们将拿起“手术刀”,深入 GPU 内部。为什么 H100 的 L2 Cache 激增?为什么 Warp Scheduler 要设计成“双发射”?Tensor Core 如何从 Ampere 的“同步阻塞”进化为 Hopper 的“异步流水线”?
七宝大爷11 天前
cuda·cuda图形交互
CUDA图形互操作(Graphics Interop)CUDA 图形互操作允许 GPU 计算核心(用于执行 CUDA Kernel)直接访问和操作由 图形 API(如 OpenGL、DirectX 或 Vulkan)创建和管理的资源,例如纹理、顶点缓冲区和像素缓冲区。
wanzhong233311 天前
ide·vscode·编辑器·cuda·高性能计算
解决vscode在win下使用cuda无法跳转库函数的问题安装相关插件在项目下的.vscode文件夹中正确配置版本和相关文件的路径,有些路径需要根据你电脑中的实际路径进行配置,如果某个路径有标黄的波浪线,说明vscode没有找到这个路径
七宝大爷11 天前
cuda·thrust·cuda并行算法
使用Thrust库进行高效的CUDA并行算法Thrust 是一个基于模板的 C++ 库,它提供了并行版本的标准模板库(STL,Standard Template Library)算法和数据结构。它允许开发者使用简洁的 C++ 语法来编写高效的 GPU 并行代码。
2401_8414956412 天前
c++·python·算法·cuda·mpi·并行计算·openmp
并行程序设计与实现1.使用SPMD编程模式编写求解的MPI程序。采用数值积分法(积分 ),SPMD 模式下每个进程计算区间的一部分,最终汇总结果。
七宝大爷13 天前
cuda
OpenCL:跨平台的异构计算框架OpenCL 是一个由 Khronos Group(一个行业协会,也负责 OpenGL 和 Vulkan 等标准)维护的开放、免授权费的标准。它定义了一个用于编写并行程序的框架,这些程序可以在 CPU、GPU、FPGA(现场可编程门阵列)和其他类型的异构处理器上高效执行。
七宝大爷14 天前
cuda·wrap·线程束
warp divergence(线程束分化)及其避免方法Warp 分化是 NVIDIA GPU 上执行效率低下的主要原因之一,它直接源于 Warp(线程束)的 **SIMT(单指令多线程)**执行模型。
七宝大爷16 天前
开源·cuda·amd·rocm·gpu内核3
AMD ROCm生态介绍:开源的GPU计算平台ROCm (Radeon Open Compute Platform)** 是 AMD 推出的一套开源软件栈,旨在为基于 AMD Radeon 和 Instinct GPU 的硬件提供高性能、通用目的的 GPU 计算能力。它的目标是挑战 NVIDIA CUDA 在高性能计算领域的领导地位,通过开源和开放标准来建立一个替代性的生态系统。
KIDGINBROOK18 天前
cuda·gemm·hopper
Hopper Gemm优化本章介绍下Hopper下TensorCore的使用,以及如何利用TensorCore实现和优化Gemm,主要参考这个博客和对应的代码实现。
七宝大爷19 天前
人工智能·深度学习·cuda·cudnn
CUDA与cuDNN:深度学习加速库CUDA(Compute Unified Device Architecture)是 NVIDIA 的通用并行计算平台,而 **cuDNN(CUDA Deep Neural Network Library)**则是在 CUDA 平台之上构建的、专门针对深度学习应用的高性能原语库。
@Wufan20 天前
linux·服务器·ubuntu·cuda
ubuntu服务器子用户(无sudo权限)安装/切换多个版本cuda进入CUDA网站下载需要的CUDA版本,我这里选择cuda13.0.0版本下载。在服务器命令行输入下载指令
FF-Studio22 天前
pytorch·自然语言处理·cuda·unsloth·rtx 50 series
解决 NVIDIA RTX 50 系列 (sm_120) 架构下的 PyTorch 与 Unsloth 依赖冲突发布日期: 2025年12月12日 分类: AI Infrastructure / LLM Training / Troubleshooting 关键词: NVIDIA RTX 5060 Ti, CUDA 13.1, PyTorch 2.9, Unsloth, Dependency Hell, Poetry
FF-Studio23 天前
linux·运维·服务器·cuda
RTX 5060 Ti Linux 驱动黑屏避坑指南:CUDA 13.1, Open Kernel 与 BIOS 设置Ultimate Guide: Installing RTX 5060 Ti Drivers & CUDA 13.1 on Linux (Ubuntu 24.04) - Fixing Black Screens & Device Errors
james bid23 天前
linux·ubuntu·macos·cuda·egpu
MacBook Pro 2015 上 XUbuntu 24.04 启用 eGPU (GeForce GTX 1080 Ti) 和核显黑屏问题解决启用吃灰的老机 MacBook Pro 2015 + eGPU(nvidia) MacBook Pro 2015 上 XUbuntu 24.04 启用 eGPU (GeForce GTX 1080 Ti) 和核显 (iGPU + dGPU),需解决黑屏问题 启动使用了 rEFInd 和 apple_set_os.efi: https://github.com/0xbb/apple_set_os.efi/