cuda

老鱼说AI15 小时前
c++·人工智能·深度学习·神经网络·机器学习·语言模型·cuda
CUDA架构与高性能程序设计:多维网格与数据在前面的章节中,我们已经揭开了 GPU 大规模并行计算的神秘面纱,并成功编写了基础的 CUDA 程序。利用一维的线程网格(Grid)和线程块(Block),我们学会了如何高效地处理线性的数据数组,例如向量加法。然而,当我们把目光从简单的数组投向广阔的现实世界时,会发现一个不可回避的事实:真实世界的计算问题绝大多数都是多维的。
70asunflower1 天前
c++·人工智能·cuda
CUDA基础知识巩固检验练习题【附有参考答案】(8)以下是针对 2.2.4 Memory Performance 和 2.2.4.1 Coalesced Global Memory Access 章节内容设计的完整知识点巩固习题包。
被制作时长两年半的个人练习生2 天前
gpu·cuda
blackwell和warp specialization的背景下如何理解CTA在Blackwell架构和Warp Specialization的背景下,CTA(协作线程数组)的概念和角色发生了重要演变,从传统的执行单元转变为更复杂的任务协调和数据流管理单元。
70asunflower2 天前
c++·人工智能·cuda
CUDA基础知识巩固检验练习题【附有参考答案】(7)以下是针对 2.2.3.5 Constant Memory 至 2.2.3.8 Distributed Shared Memory 章节内容设计的完整知识点巩固习题包。
money05342 天前
cuda
CUDA C++ Best Practices Guide读书笔记性能优化,量化意识为王。目标:系统掌握 CUDA 优化知识,服务于 tiled 矩阵乘 + FlashAttention 实现 策略:读一层、做一层,交替进行,不要先读完再动手
老鱼说AI2 天前
开发语言·c++·人工智能·算法·架构·cuda
CUDA架构与高性能程序设计:异构数据并行计算欢迎来到并行计算的真实世界。如果说传统的串行程序是一辆追求极致单步响应速度的跑车,那么我们即将学习的异构数据并行程序,就是一支能够同时处理海量任务的超级舰队。
superior tigre5 天前
c++·cuda·ai infra
权威指南 第四章这一章主要是从memory角度来分析和优化算子的,用transposition的例子分析maxbandwidth rate对性能的影响。
ouliten7 天前
c++·笔记·cuda·cutlass
[CUTLASS笔记2]host端工具类头文件这里大部分的流程都和上一篇一模一样,就不再赘述了这是cutlass封装的half数据类型,对应cuda的__half
70asunflower9 天前
c++·人工智能·cuda
CUDA编程指南基础知识点总结(5)以下是针对 2.2.3 GPU Device Memory Spaces 章节内容的详细知识点整理,包含所有内存类型的特性、使用方法及最佳实践。
70asunflower9 天前
人工智能·cuda·cpp
CUDA基础知识巩固检验练习题【附有参考答案】(5)以下是针对 2.2 Writing CUDA SIMT Kernels 和 2.2.1-2.2.2 子章节内容的详细知识点整理及配套练习题。
70asunflower9 天前
c++·人工智能·cuda
CUDA基础知识巩固检验练习题【附有参考答案】(6)以下是针对 2.2.3 GPU Device Memory Spaces 章节内容设计的完整知识点巩固习题包,包含选择题、填空题、简答题、分析题和编程练习题。
封奚泽优23 天前
pytorch·python·cuda·mmdetection·mmcv
使用mmdetection项目进行训练记录open-mmlab/OpenMMLabCourse:OpenMMLab课程索引及相关内容MMDetection 环境搭建保姆级指南(支持50系列显卡)_mmdetection windows安装-CSDN博客
fpcc24 天前
c++·cuda
并行编程实战——CUDA编程的其它Warp函数在前面将束内原语的Vote和Shuffle进行了分析和说明,基本明白了二者的功能和用途。这时候可能就会想到,会不会还有其它的束内函数呢?那自然是有的。下面将对其它的几个束内函数进行分析和说明,不过,重点只是进行功能的分析说明。更多的细节需要思考和查找相关资料(特别是官网上的文档说明)。
Autumn729925 天前
开发语言·python·conda·cuda
【系统重装】PYTHON 入门——速通版直接输入指令验证,缺少什么就安装什么conda 也叫 anaconda,验证:如果缺少,参考这篇里面的----Win10(无gpu)https://blog.csdn.net/weixin_46022776/article/details/152517904
fpcc25 天前
c++·cuda
并行编程实战——CUDA编程的Warp Vote原语,对于开发者们并不陌生。而CUDA也提供了不同情况下的原语操作,其中一个就是束内原语。包括前面才分析过的Warp Shuffle和将要分析的Warp Vote。 所以束内原语,其实就是Warp内的原语。它提供了在Warp内的原子性、不可再细分的基本操作,提供了最基础的同步操作。
fpcc25 天前
c++·cuda
并行编程实战——CUDA编程的Warp Shuffle在每一种语言中,对线程或进程间的数据交互都控制的非常谨慎。也就是说,为了兼顾效率和安全,往往对线程间的通信根据不同的情况提供不同的处理机制。特别涉及到内存中的数据交互,提供了多种的处理方法,典型的有:
风流倜傥唐伯虎1 个月前
人工智能·深度学习·cuda
N卡深度学习环境配置1. 打开CMD命令行,输入指令:nvidia-smi2. 查看输出结果中的驱动版本(示例:RTX 3050 laptop 对应驱动版本 526.56)。
fpcc1 个月前
c++·cuda
并行编程实战——CUDA编程的Enhancing Memory AllocationEnhancing Memory Allocation,优化内存分配或改进内存分配、增强内存分配。在前面的文章对CUDA内存管理和优化以及优化的方法“内存预取”进行了分析说明。本文将对CUDA中整体的内存优化进行分析,并根据具体的层次说明与之相关的内存优化方法。 在此基础之上,协调处理每个层次的内存优化以期达到整体的最大优化的可能。
fpcc1 个月前
人工智能·cuda
AI和大模型之一介绍要想搞AI,必须先得把根儿刨刨。早在很久以前,人们就幻想着能够让机器来代替更多的人类的工作。但真正能够把这个幻想朝着真实迈进一步的,则是机器学习的发展特别是深度学习的发展。这才让AI真正走到了大众面前。特别是多层卷积神经网络的出现配合着硬件技术的突破,以及谷歌等头部大公司开源了TensorFlow和PyTorch等基础深度学习框架后。相关的AI技术开始快速发展。生成对抗网络等技术也不断的发展,使得相关的AI基础支撑技术得到了长足的进步。
闪电橘子1 个月前
ide·python·pycharm·cuda
Pycharm运行程序报错 Process finished with exit code -1066598273 (0xC06D007F)1.终端可以运行2.连print(1)都报错,报错内容:Process finished with exit code -1066598273 (0xC06D007F)