rocm

DeeplyMind3 天前
svm·amdgpu·rocm·kfd
11 - SVM的高级特性:多GPU支持难度: 🔴🔴 高级 预计学习时间: 2-2.5小时 前置知识: 第6-10章、GPU互联技术多GPU支持是SVM的高级特性,允许单个虚拟地址空间被多个GPU访问。想象一下:
DeeplyMind15 天前
svm·amdgpu·rocm·kfd·rocr
09 - SVM缺页处理机制难度: 🔴🔴 高级 预计学习时间: 2.5-3小时 前置知识: 第6-8章、GPU架构、页面异常处理
DeeplyMind16 天前
svm·amdgpu·rocm·kfd·rocr
07 - SVM内存迁移机制难度: 🔴🔴 高级 预计学习时间: 2.5-3小时 前置知识: 第6章、DMA基础、SDMA/TTM概念
DeeplyMind17 天前
svm·amdgpu·rocm·kfd
06 - SVM范围管理难度: 🟡🔴 进阶到高级 预计学习时间: 2-2.5小时 前置知识: 前面章节内容、红黑树和区间树基础
DeeplyMind18 天前
svm·amdgpu·rocm·kfd
05 - 进程与SVM的关系难度: 🟡 进阶 预计学习时间: 1-1.5小时 前置知识: 前面章节内容、Linux进程管理基础在AMDGPU驱动中,每个使用GPU计算的进程都有一个kfd_process结构。SVM功能是以进程为单位组织的——每个进程都有独立的SVM范围列表。本章将深入探讨进程如何管理SVM,以及在进程生命周期的各个阶段SVM如何初始化、使用和清理。
DeeplyMind19 天前
svm·amdgpu·rocm·kfd
03 - AMDGPU驱动架构概览难度: 🟡 进阶 预计学习时间: 1-1.5小时 前置知识: Linux驱动基础、前两章内容在深入SVM实现细节之前,我们需要理解AMDGPU驱动的整体架构。AMDGPU是一个复杂的驱动系统,包含显卡驱动(AMDGPU)和计算驱动(KFD)两大部分。SVM功能主要在KFD中实现,但与AMDGPU的其他组件紧密协作。
DeeplyMind21 天前
rocm·rocr·libhsakmt·hsamemflags
ROCm rocr-libhsakmt分析系列4: HsaMemFlags分析在前文中,我们分析了 GPU VM、aperture 以及 libhsakmt 实现的不同类型 apertures。本文将深入探讨更细粒度的地址空间管理单元:vm_object。至此,整个VM空间的层次关系呼之欲出,用图例展示一下。
DeeplyMind24 天前
hmm·rocm·kfd·共享虚拟内存·amdgpu svm
02 - SVM相关的Linux内核基础难度: 🟢🟡 入门到进阶 预计学习时间: 1-2小时 前置知识: 操作系统基础、了解指针和内存概念
DeeplyMind25 天前
svm·amdgpu·rocm·kfd
01 - 什么是SVM难度: 🟢 入门级 预计学习时间: 30-45分钟 前置知识: 基本的CPU/GPU概念,了解虚拟内存
DeeplyMind1 个月前
svm·rocm·kfd
AMD ROCm-SVM技术的实现与应用深度分析目录本系列文档旨在帮助新手系统学习AMDGPU中的Shared Virtual Memory (SVM)技术。SVM作为异构计算ROCm和CUDA编程的核心支撑技术,在人工智能时代有着举足轻重的地位,已成为驱动开发者们必备的一项技能。 本专栏为2026年02月专栏,二月周一到周五每天发布一篇(节假日除外)。敬请订阅关注,以便及时收到发布通知。
越努力越幸运~2 个月前
ai·vllm·rocm·ai max+395
AMD AI MAX +395迷你主机 架构1151安装 vllm部署大模型操作记录第一步 操作系统ubuntu24.4.3安装 rocm版本7.1网址https://rocm.docs.amd.com/projects/install-on-linux/en/latest/install/prerequisites.html
七宝大爷2 个月前
开源·cuda·amd·rocm·gpu内核3
AMD ROCm生态介绍:开源的GPU计算平台ROCm (Radeon Open Compute Platform)** 是 AMD 推出的一套开源软件栈,旨在为基于 AMD Radeon 和 Instinct GPU 的硬件提供高性能、通用目的的 GPU 计算能力。它的目标是挑战 NVIDIA CUDA 在高性能计算领域的领导地位,通过开源和开放标准来建立一个替代性的生态系统。
DeeplyMind3 个月前
linux·amdgpu·rocm·kfd·rocr
AMD rocr-libhsakmt分析系列3-1: Apertures前文已经给出了aperture的定义。在 AMD GPU 的 HSA运行时中,Aperture(孔径)是一个核心概念,用于管理和组织不同类型的内存区域。libhsakmt 库通过精心设计的 aperture 机制,实现了 CPU 和 GPU 之间高效、灵活的内存管理。本文档详细阐述 libhsakmt 中 aperture 的类型、设计原理和使用场景。
DeeplyMind3 个月前
linux·amdgpu·dma-buf·rocm·kfd·rocr
AMD rocr-libhsakmt分析系列6-2:共享机制-import前文:AMD rocr-libhsakmt分析系列6-1:共享机制-export分析了export hsa的bo,本文分析import graphics传过来的bo。
DeeplyMind3 个月前
p2p·hip·rocm
ROCm GPU间 P2P 能力确定机制分析P2P(Peer-to-Peer)能力决定了GPU之间能否直接访问彼此的内存,这对于多GPU协作和高性能计算至关重要。本文档详细分析ROCm中P2P能力的确定过程。
Sanlings4 个月前
pytorch·ai·comfyui·amd·rocm·rx5700xt·ubuntu25.04
ComfyUI+RX5700XT+Ubuntu25.04运行配置有台机器,是AMD RX5700XT的显卡,近期想要试试能否跑ComfyUI,在Windows 11上尝试了CPU环境运行的,出一张图需要10小时以上,简直不要太慢,本着简便的想法尝试在WSL2上启用ROCm,发现WSL2微软并没有为其内核启用ROCm支持,一直报错,不太想重新编译内核,于是安装了Ubuntu25.04,准备直接在原生系统跑起来,后来发现这一套配置有不少坑,配置起来比较麻烦,于是记录下,给有同样烦恼的朋友提供一份思路。
DeeplyMind4 个月前
linux·驱动开发·amdgpu·rocm·kfd
AMD KFD的BO设计分析系列6-1: VRAM BO的显存分配分析前文:AMD KFD的BO设计分析系列6: BO的物理地址部分-PM概述了BO物理空间的核心结构体间的关系,根据分配位置的不同,使用不同的管理器来实现物理空间的分配。本文介绍的AMD 的 VRAM 管理器(amdgpu_vram_mgr)负责为BO分配具体的设备内存(VRAM),重点分析TTM 框架下 ttm_resource 物理地址分配的代码实现,重点关注 VRAM 分配流程和物理地址的确定。
DeeplyMind5 个月前
linux·ai·amdgpu·rocm·rocr·libhsakmt·thunk
rocr专栏介绍本专栏聚焦 AMD ROCm 生态的底层核心 ——rocr runtime 库,以 “从硬件交互到上层封装” 的技术链路为脉络,开展系统性、深粒度的实现分析,为开发者打通 “roc 底层机制 - 上层 C++ 调用 - 工程化实践” 的认知闭环。
DeeplyMind6 个月前
人工智能·机器学习·amdgpu·rocm·kfd
AMD KFD驱动技术分析16:SVM Aperture在 ROCm 的 libhsakmt 内存管理体系中,dGPU共享虚拟内存(SVM)管理是高性能异构计算的核心。为满足不同类型的内存一致性需求,hsakmt 针对 dGPU SVM 设计了两种 aperture(地址空间管理器):dgpu_aperture 和 dgpu_alt_aperture。这两者分别对应非一致性(non-coherent)和一致性(coherent)的 SVM 内存分配,底层实现和使用场景各有侧重。关于SVM的原理请参见:AMD KFD驱动技术分析11:SVM原理与核心概念。
Hi202402171 年前
gpu·cuda·amd·gpgpu·rocm
Rocprofiler测试Rocprofiler测试输出在 ROCm(Radeon Open Compute)平台中,Agent 通常指的是计算设备或处理单元,这些可以是 CPU 或 GPU。每个 Agent 可以执行计算任务并具有自己的计算资源,如计算核心、内存等。在 ROCm 的程序模型中,Agent 是负责执行特定任务的实体,当你使用 ROCm 进行并行计算时,任务通常会分配给不同的 Agent 来处理。Agent 是 ROCm 的异构计算环境中进行任务调度和管理的基本单元之一