cuda

阿钱真强道3 天前
pytorch·cuda·aarch64·深度学习环境搭建·飞腾服务器·s5000c·rtx4090d
01 飞腾 S5000C 服务器环境搭建实战:PyTorch + CUDA + RTX 4090D 安装与验证最近在飞腾 S5000C 服务器上搭建深度学习运行环境,本文记录一下从硬件信息确认、GPU 驱动检查,到 PyTorch 安装和 CUDA 验证的完整过程。
酌量6 天前
linux·笔记·ubuntu·torch·cuda·agx
nvidia orin agx刷机忘记CUDA runtime,安装torch和cuda废话不多说,直接上操作1. 加源 安装依赖手动添加源然后添加相关源保存后执行2. 安装 JetPack(完整CUDA) 执行
明月醉窗台7 天前
人工智能·边缘计算·cuda·jetson
[Jetson] NVIDIA Jetson 全系列边缘计算芯片进阶指南这是英伟达目前最顶尖的系列,专为具身智能(Humanoid Robotics)和生成式 AI 设计。上市年份: 2024年发布(2025年量产)。
明月醉窗台11 天前
人工智能·opencv·计算机视觉·cuda·jetson
[Jetson] 在Jetson Xavier AGX编译opencv+cuda准备工作:安装依赖包:执行编译:https://blog.csdn.net/yohnyang/article/details/129893542
专注VB编程开发20年11 天前
算法·cuda
CUDA实现随机切割算法,显卡多线程计算你的切割优化随机算法,天生就是为 CUDA 并行设计的:每一次随机方案的生成、计算、校验,都是完全独立、互不干扰的任务,没有线程间依赖,属于 GPU 最擅长的「尴尬并行」场景。
KIDGINBROOK16 天前
cuda·rdma·nccl
NVIDIA NCCL 源码学习(十七)- LL和LL128协议之前提到nccl有多种协议,并且主要以simple协议为例介绍nccl的流程,本节我们具体看下simple之外的LL和LL128协议,LL是low latency的缩写,表示低延迟。 协议在这里是指当前rank发送数据给peer的时候,peer如何知道数据已经可见,simple的做法是当前rank先发data,再执行fence_sys,最后发flag,peer轮询flag,当轮询到flag的时候就可以知道data已经可见,但是fence_sys是个耗时的操作,nccl通过拆分出单独的warp执行fence
老鱼说AI16 天前
c语言·深度学习·算法·架构·cuda
大规模并发处理器程序设计(PMPP)讲解(CUDA架构):第四期:计算架构与调度在前面的章节中,我们已经掌握了如何使用 CUDA 编程模型来表达并行性。我们习惯了将一个庞大的计算任务划分为一个线程网格 (Grid),并将网格进一步细分为多个线程块 (Block),每个块中包含数百个并发执行的线程 (Thread)。这种以数据为中心的软件抽象非常优雅,它让程序员可以摆脱底层硬件的繁文缛节,专注于算法的逻辑。
HelloTonyGo17 天前
gpu·nvidia·cuda·openclaw
个人游戏笔记本免费“养龙虾”(二)用显卡GPU运行OpenClaw,CUDA的安装与配置系列文章: 1. 个人游戏笔记本免费“养龙虾”(Win10+WSL2+OpenClaw 部署与配置指南)
superior tigre17 天前
cuda
记录一次Segmentation fault (core dumped) 段错误(cuda编程)使用makefile编译成功编译,但是在运行时出现 Segmentation fault (core dumped) 段错误,如下图所示:
老鱼说AI21 天前
c++·人工智能·深度学习·神经网络·机器学习·语言模型·cuda
CUDA架构与高性能程序设计:多维网格与数据在前面的章节中,我们已经揭开了 GPU 大规模并行计算的神秘面纱,并成功编写了基础的 CUDA 程序。利用一维的线程网格(Grid)和线程块(Block),我们学会了如何高效地处理线性的数据数组,例如向量加法。然而,当我们把目光从简单的数组投向广阔的现实世界时,会发现一个不可回避的事实:真实世界的计算问题绝大多数都是多维的。
70asunflower22 天前
c++·人工智能·cuda
CUDA基础知识巩固检验练习题【附有参考答案】(8)以下是针对 2.2.4 Memory Performance 和 2.2.4.1 Coalesced Global Memory Access 章节内容设计的完整知识点巩固习题包。
被制作时长两年半的个人练习生22 天前
gpu·cuda
blackwell和warp specialization的背景下如何理解CTA在Blackwell架构和Warp Specialization的背景下,CTA(协作线程数组)的概念和角色发生了重要演变,从传统的执行单元转变为更复杂的任务协调和数据流管理单元。
70asunflower22 天前
c++·人工智能·cuda
CUDA基础知识巩固检验练习题【附有参考答案】(7)以下是针对 2.2.3.5 Constant Memory 至 2.2.3.8 Distributed Shared Memory 章节内容设计的完整知识点巩固习题包。
money053422 天前
cuda
CUDA C++ Best Practices Guide读书笔记性能优化,量化意识为王。目标:系统掌握 CUDA 优化知识,服务于 tiled 矩阵乘 + FlashAttention 实现 策略:读一层、做一层,交替进行,不要先读完再动手
老鱼说AI22 天前
开发语言·c++·人工智能·算法·架构·cuda
CUDA架构与高性能程序设计:异构数据并行计算欢迎来到并行计算的真实世界。如果说传统的串行程序是一辆追求极致单步响应速度的跑车,那么我们即将学习的异构数据并行程序,就是一支能够同时处理海量任务的超级舰队。
superior tigre1 个月前
c++·cuda·ai infra
权威指南 第四章这一章主要是从memory角度来分析和优化算子的,用transposition的例子分析maxbandwidth rate对性能的影响。
ouliten1 个月前
c++·笔记·cuda·cutlass
[CUTLASS笔记2]host端工具类头文件这里大部分的流程都和上一篇一模一样,就不再赘述了这是cutlass封装的half数据类型,对应cuda的__half
70asunflower1 个月前
c++·人工智能·cuda
CUDA编程指南基础知识点总结(5)以下是针对 2.2.3 GPU Device Memory Spaces 章节内容的详细知识点整理,包含所有内存类型的特性、使用方法及最佳实践。
70asunflower1 个月前
人工智能·cuda·cpp
CUDA基础知识巩固检验练习题【附有参考答案】(5)以下是针对 2.2 Writing CUDA SIMT Kernels 和 2.2.1-2.2.2 子章节内容的详细知识点整理及配套练习题。
70asunflower1 个月前
c++·人工智能·cuda
CUDA基础知识巩固检验练习题【附有参考答案】(6)以下是针对 2.2.3 GPU Device Memory Spaces 章节内容设计的完整知识点巩固习题包,包含选择题、填空题、简答题、分析题和编程练习题。