gpu

Eloudy1 天前
gpu·arch·gem5
一问理解 gem5 与 archmodel 和 cmodel 的关系gem5 是 arch model么?主要参与什么设计阶段呢?这是一个非常好的问题,它触及了 gem5 的核心定位。让我们来详细拆解。
Seal软件4 天前
llm·gpu
GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场2025 年是大模型推理技术发展的关键之年。自年初 DeepSeek R1 发布引发全民关注以来,推理框架加速需求暴涨,推理优化的战场骤然升温。以 vLLM、SGLang、MindIE 为代表的高性能推理引擎,以及 FlashInfer、FlashAttention、ATB 等底层加速库不断突破性能瓶颈,相比年初,部分前沿框架的推理性能提升已达 3 到 4 倍以上。
Eloudy4 天前
gpu·arch·gem5
learning_gem5 part1_05 gem5 v24.1:使用 gem5 标准库配置脚本gem5 标准库的引入改变了编写 gem5 配置脚本的方式。下文 gem5 v21.0 章节中提到的许多旧版配置脚本现已被弃用,转而推荐使用位于 configs/example/gem5_library 的 gem5 标准库配置脚本。
Eloudy6 天前
gpu·arch·gem5
learning_gem5 part1_04 理解gem5统计信息与输出文件除了模拟脚本自行输出的信息外,运行gem5后会在m5out目录下生成三个文件:config.ini:列出为模拟创建的所有SimObject及其参数值 config.json:内容与config.ini相同,但采用json格式 stats.txt:以文本形式记录所有已注册的gem5统计信息
Eloudy8 天前
gpu·arch
全文 -- GPU-Initiated Networking for NCCLGPU-Initiated Networking for NCCL(面向NCCL的GPU主动网络技术)
HyperAI超神经8 天前
人工智能·语言模型·自然语言处理·cpu·gpu·编程语言·tvm
【TVM 教程】优化大语言模型TVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →Apache TVM
Felven9 天前
gpu·推理·mr50·天数
天数智芯MR50推理卡测试图1是一只虎猫(tiger cat)。我们通过resnet18模型的resnet18.onnx(onnx是一种跨平台的通用模型文件格式),来对这张图片进行推理最终得到这张图片是什么动物。
杰克逊的日记9 天前
cpu·gpu·作业管理
slurm部署Slurm(Simple Linux Utility for Resource Management)是开源的高性能计算(HPC)资源管理与作业调度系统,广泛用于集群环境的 CPU、GPU 等资源调度。以下是 Slurm 完整部署指南,包含单节点测试、多节点集群部署、基础配置与作业提交,适配科研 / 企业级 HPC 场景:
Eloudy9 天前
gpu
AMD Instinct MI300 系列 GPU 技术规格说明AMD Instinct MI300 系列 GPU 基于专为高性能计算(HPC)、人工智能(AI)和机器学习(ML)工作负载打造的 AMD CDNA 3 架构。该系列 GPU 具备卓越的可扩展性和计算性能,可适配从单台服务器到全球最大百亿亿级超级计算机的全场景部署。
Eloudy12 天前
ic·gpu
GPU-Initiated Networking (GIN)及其核心硬件基础 SCI本文将系统性地详细介绍 GPU-Initiated Networking 及其核心硬件基础 SCI。这两项技术共同代表了 NVIDIA 在超大规模计算领域迈向「以 GPU 为中心」架构的革命性一步。
web像素之境13 天前
游戏·gpu·计算机图形学
实时光线追踪加速硬件结构(详细版)近几年一些大型游戏开始支持光线追踪渲染,在设置中开启光追后,画质能有明显的提升。但要实现这种实时的光追渲染并不简单,其不仅需要游戏中编写了相关的算法及程序,更需要你的电脑硬件支持。
wanzhong233315 天前
深度学习·gpu·cuda·高性能计算
CUDA学习2-CPU和GPU的性能优化latency:完成一个指令的耗时memory latency:从memory获取内存数据等待的时间,是CPU的优化方向
七宝大爷17 天前
gpu
GPU 发展简史:图形处理到通用计算的蜕变图形处理单元(GPU)最初作为专门的图形渲染硬件出现,如今已发展成为强大的通用并行处理器。这场技术革命不仅改变了计算机图形学领域,更深刻影响了科学计算、人工智能和数据分析等多个学科。本文将系统梳理GPU从专用图形处理器到通用计算引擎的演变历程。
HackerTom17 天前
python·jupyter·gpu·vs code·远程
vs code jupyter连gpu结点kernel学校的服务器 [1] 分登录结点和计算结点。以往想在 jupyter notebook 调用 GPU 跑程序,是用 ssh tunnel 转发到自己电脑,然后用浏览器打开。
杰克逊的日记17 天前
服务器·gpu·监控·算力
大型 GPU 服务集群监控方案(>50 节点)大型 GPU 集群(>50 节点)的监控核心需求是 “高可用、可扩展、精细化、智能化”,需解决 “海量指标采集、跨节点联动分析、故障快速定位、资源全局调度” 四大痛点。以下方案基于「Prometheus 联邦 + Kubernetes + 全链路监控」架构,补充指标分片、智能告警、日志联动等大型集群必备能力,附架构设计、部署细节和运维最佳实践:
Baihai_IDP18 天前
人工智能·面试·gpu
面向 LLM 的 GPU 系统工程方法论编者按: 我们今天为大家带来的文章,作者的观点是:GPU 工程的核心不在于手写内核的能力,而在于构建系统设计思维 —— 理解从模型定义到硬件层的完整技术栈如何协同工作。
杰克逊的日记20 天前
gpu·算力·poc
GPU集群poc测试bash根据实际集群情况修改脚本头部的 配置参数:bashbash若需对集群所有节点执行测试,可通过 Ansible 批量分发脚本并执行:
博士僧小星21 天前
开源·大模型·gpu·gpustack
环境配置|GPUStack——为大模型而生的开源GPU集群管理器经过 Seal 研发团队几个月来持续的开发和测试,新产品 GPUStack发布,GPUStack 是一个用于运行 LLM(大型语言模型)的开源 GPU 集群管理器。尽管如今大语言模型作为公共的云上服务已经被广泛推广并在公有云上变得更加易于使用,但对企业来说,部署托管自己私有的 LLM 供企业和组织在私有环境使用仍然非常复杂。
I_belong_to_jesus1 个月前
gpu算力·gpu
tiny-gpu入门4: ALU模块分析ALU模块代码如下:ALU会基于控制信号:[2:0] core_state、decoded_alu_output_mux和[1:0]decoded_alu_arithmetic_mux,对寄存器rs和rt的值执行具体的计算。
算家计算1 个月前
人工智能·云计算·gpu
推理成本吞噬AI未来,云计算如何平衡速度与成本的难题?当前AI规模化应用正面临着核心困境:在追求极致响应速度的同时,如何控制呈指数级增长的计算成本?过去一年,生成式AI模型吸引了无数关注,但与之对应的训练和推理计算系统却面临着成本与效率的双重挑战。