hpc

CHI 开发备忘 08 记 -- CHI spec 08第 8 章 DVM 操作本章描述了协议用于管理虚拟内存的分布式虚拟内存 (DVM) 操作。它包含以下部分： • 第 8-258 页的 8.1 DVM 事务流。 • 第 8-268 页的 8.2 DVM 操作类型。 • 第 8-271 页的 8.3 DVM 操作。

稀疏矩阵的 CSR 格式（Compressed Sparse Row）CSR 是一种存储稀疏矩阵的高效格式，通过只存储非零元素来节省内存。它用三个数组来表示矩阵。假设我们有一个稀疏矩阵：

CHI 开发备忘 06 记 -- CHI spec 06 独占访问第 6 章独占访问本章描述了架构为支持独占访问而包含的机制。它包含以下部分： • 概述在 6-240 页。 • 独占监视器在 6-241 页。 • 独占事务在 6-244 页。

直接法读书笔记 07 第7章减少填充的排序第7章减少填充的排序填充最小化问题可以表述如下：给定矩阵，找到行和列置换和（对于稀疏Cholesky分解，附加约束），使得分解后的非零元数量，或计算它所需的工作量，最小化。该问题在实践中无法解决，因此使用启发式方法来尝试减少填充。存在三种基本策略；它们有时会结合使用以获得混合策略：（1）最小度及其变体（例如，最小填充），（2）嵌套剖分（递归图划分），以及（3）带宽缩减。第一种策略最常见，下面详细介绍。其他两种策略的特点会着重说明。Dulmage-Mendelsohn分解是一种置换，可以减少 L

CHI 开发备忘 05 记 -- CHI spec 05 互连协议流程第 5 章互连协议流程本章展示了不同事务类型的互连协议流程以及互连冒险条件。协议流程使用时序图进行说明。它包含以下部分： • 第 5-204 页的读事务流程。 • 第 5-215 页的无数据事务流程。 • 第 5-219 页的写事务流程。 • 第 5-222 页的原子事务流程。 • 第 5-229 页的暂存事务流程。 • 第 5-232 页的冒险处理示例。

直接法读书笔记 06 第6章 LU分解第6章 LU分解在本文介绍的三种分解方法（Cholesky、QR和LU）中，LU分解是最古老的。作为一种分解方法，它将矩阵分解为乘积，其中是下三角矩阵，是上三角矩阵。历史上用于稠密矩阵的方法是right-looking方法（高斯消元法）；本文同时介绍这种方法与left-looking方法。后者在CSparse中使用，因为它导致稀疏情况下的实现要简单得多。

CHI 开发备忘 03 记 -- CHI spec 03 网络层第 3 章网络层本章描述负责确定目标节点 ID 的网络层。它包含以下部分： • 第 3-134 页的系统地址映射。 • 第 3-135 页的节点 ID。 • 第 3-136 页的目标 ID 确定。 • 第 3-138 页的网络层流程示例。

CHI 开发备忘 02 记 -- CHI spec 02 事务第 2 章事务本章概述了节点间的通信通道、相关的数据包字段以及事务结构。它包含以下部分： • 第 2-32 页的通道概述。 • 第 2-33 页的通道字段。 • 第 2-39 页的事务结构。 • 第 2-73 页的事务标识符字段。 • 第 2-74 页的事务标识符字段详情。 • 第 2-77 页的事务标识符字段流。 • 第 2-98 页的逻辑处理器标识符。 • 第 2-99 页的排序。 • 第 2-109 页的地址、控制和数据。 • 第 2-118 页的数据传输。 • 第 2-129 页的请求重试。

SuiteSparse 的 README2026年2月5日，SuiteSparse 版本 7.12.2SuiteSparse 是由 Tim Davis 编写或合著的一组稀疏矩阵相关软件包，可在 https://github.com/DrTimothyAldenDavis/SuiteSparse 获取。

计算引擎 CUTLASS 01章：目录结构不运行、不编译，阅读目标是希望实际找到项目的组织方式等。CUTLASS的结构体现了层次化设计和现代GPU编程范式，这里将按重要性层级解析每个目录的作用。

直接法读书笔记 01 第1章引言第 1 章引言本书阐述了用于直接求解稀疏线性系统的稀疏矩阵算法基础，内容涵盖从理论到算法、数据结构乃至实际可运行代码。本书选取算法时遵循以下目标：算法必须体现稀疏矩阵算法背后的重要理论；算法必须在运行时间和内存使用上达到渐进最优，或在实际应用中快速高效；算法必须简洁明了，易于理解，且篇幅足够简短以便在本书完整呈现；算法必须涵盖广泛的矩阵运算；算法必须精确且稳健。

案例分享︱仿真软件并行架构升级——基于swOpenFOAM的智慧风场平台在全球能源结构转型与“双碳”目标推进的背景下，风电行业正迎来高速发展与技术革新的关键阶段。风电场运营效率与发电量预测的准确性，直接关系到电网稳定性与项目经济性。然而，传统仿真工具在面对大规模、高分辨率风资源分析时，常受限于计算效率与硬件成本，难以满足实时评估与智慧调度的业务需求。

毅硕HPC | InfiniBand网络在HPC集群中的核心应用网络是高性能计算集群的“神经系统”——它决定了计算资源的协同效率、应用的可扩展性，以及最终的科学发现速度。在众多网络技术中，InfiniBand（IB）凭借其超低延迟、高带宽和硬件级卸载能力，已成为HPC领域的黄金标准。据TOP500最新统计，超过65%的顶级超算系统（包括Frontier、Fugaku等）均采用InfiniBand作为主干网络，这绝非偶然。本文将从设计案例、实施过程、后期运维三个维度，系统阐述InfiniBand在HPC中的具体应用，帮助您构建更高效、更可靠的计算基础设施。

英雄各有见

Chapter 5.1.1: 编写你的第一个GPU kernel——Cuda Basics本文介绍GPU编程的基础，包括一些基本术语以及如何编写一个kernel实现两个矩阵的加法kernel是GPU跑的的一个特殊的函数，GPU有很多同时工作的线程，而kernel就像发给他们的指令。我们通常用__global__ 关键字来标识一个kernel，其返回值只能为空

MPI API 调用的错误检查最佳实践MPI 函数通常返回一个整型错误码：总是检查MPI返回值，即使是看起来不会失败的操作使用分层错误处理，区分关键错误和非关键错误

案例分享︱私有部署及应用上云 ——AutoCAE汽零自动化仿真云平台在汽车工业迈向智能高效研发的今天，仿真技术已成为缩短开发周期、提升产品性能的关键支撑。然而，传统仿真流程脚本复杂、难以监控、依赖人工操作等局限，已成为制约企业研发效率的瓶颈。本期案例分享将围绕某知名汽车制造企业的仿真自动化需求，深入剖析神工坊®如何为其打造 AutoCAE 汽零自动化仿真云平台，实现垂直专业仿真效能的跨越式提升。

毅硕HPC | NVIDIA DGX Spark 万字硬核评测：将AI超级工厂带上桌面在生成式AI飞速发展的今天，每一位开发者都渴望拥有无拘无束的算力。不再受制于云端排队、网络延迟或数据隐私的顾虑——NVIDIA DGX Spark横空出世让这一切有了可能。

self-motivation

cuda编程 --------- warp 级别规约指令 __shfl_xor_sync__shfl_xor_sync 是 CUDA 中的一种 warp 级别洗牌指令（shuffle instruction），用于在 warp 内的线程之间交换数据。它允许线程直接读取同一 warp 中另一个线程的寄存器值，而无需通过共享内存或全局内存。这样可以实现高效的线程间通信，并减少共享内存的使用。

Altair澳汰尔

行业热点丨数字化仿真重塑食品加工：从原料到发货的全流程优化从巴氏杀菌、装瓶与罐装技术催生 “现代” 加工食品，到如今冷藏、冷冻及冻干技术造就 “方便食品”，食品加工已发展成为一个规模庞大的全球性产业 —— 其核心驱动力是实现食品的安全保鲜，以满足长期储存与全球分销的需求。

毅硕HPC | 在HPC集群上优雅地使用Conda在高性能计算（HPC）的世界里，除了编写高效的代码，构建一个稳定、可复现的运行环境同样至关重要。作为 HPC 平台的技术人员，我们发现超过 50% 的用户工单都与环境配置有关。