hpc

毅硕科技6 天前
功能测试·spark·hpc
毅硕HPC | NVIDIA DGX Spark 万字硬核评测:将AI超级工厂带上桌面在生成式AI飞速发展的今天,每一位开发者都渴望拥有无拘无束的算力。不再受制于云端排队、网络延迟或数据隐私的顾虑——NVIDIA DGX Spark横空出世让这一切有了可能。
self-motivation15 天前
cuda·hpc·warp·shfl_xor_sync·dot product
cuda编程 --------- warp 级别规约指令 __shfl_xor_sync__shfl_xor_sync 是 CUDA 中的一种 warp 级别洗牌指令(shuffle instruction),用于在 warp 内的线程之间交换数据。它允许线程直接读取同一 warp 中另一个线程的寄存器值,而无需通过共享内存或全局内存。这样可以实现高效的线程间通信,并减少共享内存的使用。
Altair澳汰尔19 天前
ai·智能制造·hpc·制造业·cae·仿真软件·数字仿真
行业热点丨数字化仿真重塑食品加工:从原料到发货的全流程优化从巴氏杀菌、装瓶与罐装技术催生 “现代” 加工食品,到如今冷藏、冷冻及冻干技术造就 “方便食品”,食品加工已发展成为一个规模庞大的全球性产业 —— 其核心驱动力是实现食品的安全保鲜,以满足长期储存与全球分销的需求。
毅硕科技19 天前
conda·hpc·应用教程·高性能计算集群·专业服务
毅硕HPC | 在HPC集群上优雅地使用Conda在高性能计算(HPC)的世界里,除了编写高效的代码,构建一个稳定、可复现的运行环境同样至关重要。作为 HPC 平台的技术人员,我们发现超过 50% 的用户工单都与环境配置有关。
神工坊2 个月前
中间件·云计算·无人机·云平台·hpc·cae·高性能仿真
仿真科普|CAE技术赋能无人机,低空经济蓄势起飞喝一杯无人机送来的现磨热咖啡;在拥堵的早高峰打个“空中的士”上班;乘坐水陆两栖飞机来一场“陆海空”立体式观光……曾经只出现在科幻片里的5D城市魔幻场景,正逐渐走进现实。而推动上述场景实现的,就是近年来越来越热的“低空经济”。
weixin_428498494 个月前
hpc
OpenMP : 进行多线程并行编程时,如何合理设置线程数和 CPU 亲和性,以充分发挥计算工作站的性能在使用 OpenMP 进行多线程并行编程时,合理设置线程数和 CPU 亲和性(CPU affinity) 对于充分发挥计算工作站的性能至关重要。尤其在多 socket、多 core 的 NUMA 架构系统中,不合理的线程调度可能导致内存访问延迟增加、缓存竞争、资源争用等问题,从而降低性能。
hyh-hz6 个月前
hpc
1 Studying《Performance Analysis and Tuning on Modern CPUs》1-6目录Preface1 关于作者2 作者的话3 目标读者1 Introduction1.1 Why Do We Still Need Performance Tuning?
weixin_428498497 个月前
性能优化·hpc·hpc/mpi
MPI与多线程(如OpenMP)混合编程注意事项与性能优化MPI初始化与线程支持级别:线程安全性:负载均衡:避免过度细分:层次化并行:通信优化:内存使用:混合并行模式:
weixin_428498498 个月前
hpc
FGMRES(Flexible Generalized Minimal Residual)方法FGMRES(Flexible Generalized Minimal Residual)方法是GMRES的变种,主要用于处理变预处理子(即每次迭代的预处理子可能不同)的情况。与标准GMRES相比,FGMRES通过存储预处理后的向量而非预处理子本身,避免了因预处理子变化导致的子空间不一致问题。
weixin_428498498 个月前
hpc·cfd
MPI Code for Ghost Data Exchange in 3D Domain Decomposition with Multi-GPUsHere’s a comprehensive MPI code that demonstrates ghost data exchange for a 3D domain decomposition across multiple GPUs. This implementation assumes you’re using CUDA-aware MPI for efficient GPU-to-GPU communication.
weixin_428498498 个月前
hpc
分布式GPU上计算长向量模的方法当向量分布在多个GPU卡上时,计算向量模(2-范数)需要以下步骤:下面是一个完整的CUDA示例代码,使用NCCL进行多GPU通信:
weixin_428498498 个月前
hpc
解决 Ubuntu 下 VTune 无法收集 CPU 硬件时间计数数据的问题在 Ubuntu 上使用 Intel VTune Profiler 时遇到无法收集 CPU 硬件性能计数器数据的问题,通常是由于权限和系统配置问题导致的。以下是解决方案:
weixin_428498498 个月前
hpc
CFD中的动量方程非守恒形式详解在计算流体力学(CFD)中,动量方程可以写成守恒形式和非守恒形式,两者在数学上等价,但推导方式和应用场景不同。以下是对非守恒形式的详细解释:
weixin_428498498 个月前
c++·hpc
在OpenFOAM中自定义动态变化的边界条件在OpenFOAM中,您可以通过以下几种方式实现边界值随时间和空间位置动态变化的边界条件:OpenFOAM已经提供了一些可以随时间或空间变化的边界条件类型:
weixin_428498498 个月前
hpc
在AMGCL中使用多个GPU和多个计算节点求解大规模稀疏矩阵方程AMGCL是一个高效的代数多重网格(AMG)求解器库,主要用于求解大规模稀疏线性系统。要在多GPU和多节点环境中使用AMGCL迭代求解大规模稀疏矩阵方程,可以按照以下步骤进行:
weixin_428498498 个月前
lua·hpc
在Fortran程序中嵌入Lua解释器在Fortran程序中嵌入Lua解释器可以通过几种方式实现。下面我将介绍一种常见的方法,使用Lua的C API并通过Fortran的C互操作性功能来调用。
weixin_428498498 个月前
hpc
使用MPI-IO并行读写HDF5文件HDF5支持通过MPI-IO进行并行读写,这对于大规模科学计算应用非常重要。下面我将提供C++和Fortran的示例程序,展示如何使用MPI-IO并行读写HDF5文件。
weixin_428498498 个月前
hpc
AMGCL库的Backends及使用示例AMGCL是一个用于解决大型稀疏线性方程组的C++库,它提供了多种后端(backends)实现,允许用户根据不同的硬件和性能需求选择合适的计算后端。
weixin_428498498 个月前
hpc
在AMGX中使用MPI加载自定义分布式矩阵和向量AMGX是一个用于大规模并行代数多重网格求解的GPU加速库,支持MPI多线程环境。以下是加载用户自定义分布式矩阵和向量的方法:
_考不上研究生不改名8 个月前
linux·服务器·vscode·远程连接·hpc·超算集群
【完美解决】VSCode连接HPC节点,已配置密钥却还是提示需要输入密码本人在使用 VSCode Remote-SSH 插件连接超算集群节点时,遇到以下问题:已正确配置 SSH 密钥,且 VSCode 能识别密钥文件(如图1),但在建立连接时仍反复要求输入密码(如图2)。