arch

Eloudy2 天前
人工智能·arch·hpc
CHI 开发备忘 08 记 -- CHI spec 08第 8 章 DVM 操作本章描述了协议用于管理虚拟内存的分布式虚拟内存 (DVM) 操作。它包含以下部分: • 第 8-258 页的 8.1 DVM 事务流。 • 第 8-268 页的 8.2 DVM 操作类型。 • 第 8-271 页的 8.3 DVM 操作。
Eloudy2 天前
人工智能·算法·arch·hpc
稀疏矩阵的 CSR 格式(Compressed Sparse Row)CSR 是一种存储稀疏矩阵的高效格式,通过只存储非零元素来节省内存。它用三个数组来表示矩阵。假设我们有一个稀疏矩阵:
Eloudy4 天前
人工智能·arch·hpc
CHI 开发备忘 06 记 -- CHI spec 06 独占访问第 6 章 独占访问本章描述了架构为支持独占访问而包含的机制。它包含以下部分: • 概述 在 6-240 页。 • 独占监视器 在 6-241 页。 • 独占事务 在 6-244 页。
Eloudy5 天前
人工智能·arch·hpc
直接法 读书笔记 07 第7章 减少填充的排序第7章 减少填充的排序填充最小化问题可以表述如下:给定矩阵 ,找到行和列置换 和 (对于稀疏Cholesky分解,附加约束 ),使得 分解后的非零元数量,或计算它所需的工作量,最小化。该问题在实践中无法解决,因此使用启发式方法来尝试减少填充。存在三种基本策略;它们有时会结合使用以获得混合策略:(1)最小度及其变体(例如,最小填充),(2)嵌套剖分(递归图划分),以及(3)带宽缩减。第一种策略最常见,下面详细介绍。其他两种策略的特点会着重说明。Dulmage-Mendelsohn分解是一种置换,可以减少 L
Eloudy6 天前
人工智能·ai·arch·hpc
CHI 开发备忘 05 记 -- CHI spec 05 互连协议流程第 5 章 互连协议流程本章展示了不同事务类型的互连协议流程以及互连冒险条件。协议流程使用时序图进行说明。它包含以下部分: • 第 5-204 页的读事务流程。 • 第 5-215 页的无数据事务流程。 • 第 5-219 页的写事务流程。 • 第 5-222 页的原子事务流程。 • 第 5-229 页的暂存事务流程。 • 第 5-232 页的冒险处理示例。
Eloudy7 天前
人工智能·ai·arch·hpc
CHI 开发备忘 03 记 -- CHI spec 03 网络层第 3 章 网络层本章描述负责确定目标节点 ID 的网络层。它包含以下部分: • 第 3-134 页的系统地址映射。 • 第 3-135 页的节点 ID。 • 第 3-136 页的目标 ID 确定。 • 第 3-138 页的网络层流程示例。
Eloudy9 天前
人工智能·ai·arch·hpc
CHI 开发备忘 02 记 -- CHI spec 02 事务第 2 章 事务本章概述了节点间的通信通道、相关的数据包字段以及事务结构。它包含以下部分: • 第 2-32 页的通道概述。 • 第 2-33 页的通道字段。 • 第 2-39 页的事务结构。 • 第 2-73 页的事务标识符字段。 • 第 2-74 页的事务标识符字段详情。 • 第 2-77 页的事务标识符字段流。 • 第 2-98 页的逻辑处理器标识符。 • 第 2-99 页的排序。 • 第 2-109 页的地址、控制和数据。 • 第 2-118 页的数据传输。 • 第 2-129 页的请求重试。
Eloudy10 天前
arch
CHI 开发备忘 01 记 -- CHI spec 01章 简介第 1 章 引言本章介绍 CHI 架构以及整个规范中使用的术语。它包含以下部分: • 架构概述 第 1-18 页。 • 拓扑结构 第 1-20 页。 • 术语 第 1-21 页。 • 事务分类 第 1-23 页。 • 一致性概述 第 1-25 页。 • 组件命名 第 1-27 页。 • 读数据源 第 1-29 页。
Eloudy12 天前
arch
CHI 开发备忘 00 记 -- CHI spec 00 目录AMBA 5 CHI 架构规范第 1 章 前言 关于本规范 ................................................................................................ x 反馈 ................................................................................................................... xv
Eloudy22 天前
人工智能·量子计算·arch
全文 -- TileLang: A Composable Tiled Programming Model for AISystemsTileLang:一种面向人工智能系统的可组合式分块编程模型现代AI工作负载在训练和推理过程中高度依赖优化的计算内核。这些AI内核遵循明确的数据流模式,例如在DRAM与SRAM之间移动数据块,并对这些数据块执行一系列计算。尽管这些模式清晰可见,编写高性能内核依然复杂。要实现峰值性能,需要以硬件为中心进行细致优化,以充分利用现代加速器。虽然领域专用编译器试图减轻编写高性能内核的负担,但它们在易用性和表达性方面仍存在不足。
Eloudy25 天前
人工智能·ic·arch
Rubin“零线缆”液冷模组技术介绍随着 AI 大模型向 Agent AI、Physical AI 演进,算力需求呈指数级增长。NVIDIA Rubin GPU 的 FP4 推理算力达 50PFLOPS(是上一代 5 倍),单颗芯片功耗突破 1800-3600W,单机柜功耗密度飙升至 400kW+(Blackwell 平台 140kW),传统风冷(散热系数仅为液冷 1/1000)与混合液冷方案已完全失效。
Eloudy1 个月前
量子计算·arch
NVIDIA NVQLink 量子与经典计算融合的开放式互连架构NVQLink 是 NVIDIA 推出的开放式系统互连架构,旨在通过低延迟、高吞吐量的技术方案,实现量子处理器(QPU)与 GPU 加速计算系统的深度耦合,解决量子计算与经典计算间的协同瓶颈。该架构定义了统一的逻辑 QPU 模型,兼容主流量子硬件技术路线,依托 CUDA-Q 软件平台提供标准化编程接口,为大规模量子纠错(QEC)、实时 QPU 校准等关键任务提供支撑,推动量子计算从实验室原型向工程化应用演进。本文将从技术背景、架构设计、核心特性、应用场景及生态布局等方面,对 NVQLink 进行全面解析。
Eloudy1 个月前
risc-v·arch
全文 -- Chapter 1. Introduction -- The RISC-V Instruction Set Manual: Volume II第1章 引言本文档描述了RISC-V特权架构,其涵盖了RISC-V系统中非特权指令集架构(ISA)之外的所有方面,包括特权指令以及运行操作系统和连接外部设备所需的其他功能。
vconlln2 个月前
arch
记录我的niri安装查看ip地址,远程连接 ip 端口为22。用户:root,密码:root2020 年,archlinux 安装镜像中加入了 reflector 服务,它会自己更新 mirrorlist(软件包管理器 pacman 的软件源)。在特定情况下,它会误删某些有用的源信息。这里进入安装环境后的第一件事就是将其禁用。也许它是一个好用的工具,但是很明显,因为地理上造成的特殊网络环境,这项服务并不适合启用。
Eloudy2 个月前
gpu·arch
11章 像素和顶点数据导出 - “Vega“ 7nm Instruction Set ArchitectureReference Guide导出指令将像素或顶点着色器数据从VGPR(向量通用寄存器)复制到专用的输出缓冲区。导出指令输出以下类型的数据:
Eloudy2 个月前
gpu·arch
10章 数据共享操作 - “Vega“ 7nm Instruction Set ArchitectureReference Guide本地数据共享(LDS)是一种极低延迟、用于临时数据的RAM暂存器,其有效带宽至少比直接、无缓存的全局内存高出一个数量级。它允许工作组内的工作项之间共享数据,并用于保存像素着色器参数插值所需的参数。与只读缓存不同,LDS允许对内存空间进行高速的"写入后读取"复用(聚集/读取/加载和分散/写入/存储操作)。
Eloudy2 个月前
gpu·arch
08章 平面内存指令 - “Vega“ 7nm Instruction Set ArchitectureReference Guide平面内存指令将数据片段读入或写出VGPR(向量通用寄存器);波前(wavefront)中的每个工作项(work-item)都会独立执行此操作。与缓冲区(buffer)或图像(image)指令不同,平面指令不使用资源常量(resource constant)来定义内存表面的基地址。相反,平面指令使用来自VGPR的单个平面地址;此地址将内存视为单个平面内存空间进行寻址。该内存空间包括显存(video memory)、系统内存(system memory)、LDS(本地数据共享)内存以及暂存(scratch,私
Eloudy3 个月前
gpu·arch
08章 向量内存操作 - “Vega“ 7nm Instruction Set ArchitectureReference Guide向量内存(VMEM)指令将每个工作项的数据分别读取或写入VGPR中。这与标量内存指令形成对比,标量内存指令移动的是波前中所有线程共享的单个数据块。所有向量内存(VM)操作都由纹理缓存系统(一级和二级缓存)处理。
Eloudy3 个月前
gpu·cuda·arch
cudaEventCreateWithFlags 的 cudaEventInterprocess 和 cudaEventDisableTimingcudaEventCreateWithFlags(&localEvent, cudaEventInterprocess | cudaEventDisableTiming); 解释功能,特性
Eloudy3 个月前
人工智能·gpu·arch
06章 矢量ALU运算 - “Vega“ 7nm Instruction Set ArchitectureReference Guide矢量ALU指令(VALU)对64个线程中的每一个线程的数据执行算术或逻辑操作,并将结果写回VGPR、SGPR或EXEC掩码。