gpu

七宝大爷32 分钟前
硬件架构·gpu·sm流式多处理器
GPU的硬件架构:SM(流式多处理器)剖析一个 NVIDIA GPU 芯片由多个 SM 组成。SM 是 GPU 的 “CPU 内核”,但专为高度并行计算设计。GPU 的整体并行能力和吞吐量主要取决于其拥有的 SM 数量和每个 SM 的计算能力。
HyperAI超神经15 小时前
人工智能·学习·大语言模型·cpu·gpu·编程语言·triton
【Triton 教程】triton_language.loadTriton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。
扫地的小何尚1 天前
人工智能·深度学习·算法·llm·gpu·量子计算·nvidia
NVIDIA CUDA-Q QEC权威指南:实时解码、GPU解码器与AI推理增强容错量子计算机的实现离不开实时解码。通过使解码器与量子处理单元(QPU)并行低延迟运行,我们可以在相干时间内对设备应用纠错,从而防止错误累积,确保计算结果的有效性。这一过程既可以在线(使用真实量子设备)完成,也可以离线(使用模拟量子处理器)完成。
HyperAI超神经1 天前
人工智能·python·深度学习·学习·大语言模型·gpu·vllm
【vLLM 学习】Prithvi Geospatial MaevLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
云雾J视界2 天前
fpga开发·边缘计算·gpu·vitis·ai推理·azure云·异构编程
FPGA在AI时代的角色重塑:硬件可重构性与异构计算的完美结合截至2025年,半导体行业已普遍接受一个不可逆的事实:晶体管微缩带来的性能红利正在枯竭。台积电3nm工艺的每晶体管成本不降反升,而2nm以下制程面临量子隧穿、原子级制造等物理极限。国际器件与系统路线图(IRDS)明确指出,未来十年算力增长将主要依赖架构创新而非制程微缩。
HyperAI超神经2 天前
网络·人工智能·网络协议·rpc·gpu·编程语言·tvm
【TVM 教程】交叉编译与 RPCTVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →Apache TVM
Eloudy3 天前
gpu·arch
11章 像素和顶点数据导出 - “Vega“ 7nm Instruction Set ArchitectureReference Guide导出指令将像素或顶点着色器数据从VGPR(向量通用寄存器)复制到专用的输出缓冲区。导出指令输出以下类型的数据:
Eloudy3 天前
gpu·arch
10章 数据共享操作 - “Vega“ 7nm Instruction Set ArchitectureReference Guide本地数据共享(LDS)是一种极低延迟、用于临时数据的RAM暂存器,其有效带宽至少比直接、无缓存的全局内存高出一个数量级。它允许工作组内的工作项之间共享数据,并用于保存像素着色器参数插值所需的参数。与只读缓存不同,LDS允许对内存空间进行高速的"写入后读取"复用(聚集/读取/加载和分散/写入/存储操作)。
无心水4 天前
人工智能·神经网络·机器学习·gpu·vgg·神经风格迁移·神经风格迁移:性能优化
【神经风格迁移:性能优化】21、模型轻量化实战:让VGG19在CPU上实时运行在神经风格迁移的实际应用中,计算资源限制往往是部署的主要障碍。原始的VGG19模型包含约1.43亿参数,需要超过500MB存储空间,在CPU上的推理速度可能低至1-2 FPS,完全无法满足实时应用需求。
Eloudy4 天前
gpu·arch
08章 平面内存指令 - “Vega“ 7nm Instruction Set ArchitectureReference Guide平面内存指令将数据片段读入或写出VGPR(向量通用寄存器);波前(wavefront)中的每个工作项(work-item)都会独立执行此操作。与缓冲区(buffer)或图像(image)指令不同,平面指令不使用资源常量(resource constant)来定义内存表面的基地址。相反,平面指令使用来自VGPR的单个平面地址;此地址将内存视为单个平面内存空间进行寻址。该内存空间包括显存(video memory)、系统内存(system memory)、LDS(本地数据共享)内存以及暂存(scratch,私
Eloudy7 天前
gpu·arch
08章 向量内存操作 - “Vega“ 7nm Instruction Set ArchitectureReference Guide向量内存(VMEM)指令将每个工作项的数据分别读取或写入VGPR中。这与标量内存指令形成对比,标量内存指令移动的是波前中所有线程共享的单个数据块。所有向量内存(VM)操作都由纹理缓存系统(一级和二级缓存)处理。
Eloudy8 天前
gpu·cuda·arch
cudaEventCreateWithFlags 的 cudaEventInterprocess 和 cudaEventDisableTimingcudaEventCreateWithFlags(&localEvent, cudaEventInterprocess | cudaEventDisableTiming); 解释功能,特性
virtaitech9 天前
人工智能·gpu·facebook·池化技术·永久免费
云平台一键部署【facebook/sam3】图像和视频中的可提示分割SAM 3 是一个统一的基础模型,用于图像和视频中的可提示分割。它可以使用文本或视觉提示(如点、框和掩码)来检测、分割和跟踪对象。与它的前身 SAM 2相比,SAM 3引入了根据简短的文本短语或示例详尽地分割所有开放词汇概念实例的能力。
玄德公笔记9 天前
docker·kubernetes·gpu·containerd·nvidia·runtime·fabricmanager
GPU节点接入k8s集群的处理修改/etc/containerd/config.toml 文件中:为了便于找到,贴出整段内容:还用注意:SystemdCgroup = true,如果你之前安装containerd没有修改,这里一定要改过来。
吴佳浩9 天前
人工智能·python·gpu
大模型量化部署终极指南:让700亿参数的AI跑进你的显卡核心问题:一个70B(700亿参数)的大模型原本需要140GB显存,怎么塞进24GB的显卡? 答案:量化 —— AI界的"压缩包技术"
杰克逊的日记9 天前
人工智能·大模型·gpu·算力
大模型的原理是什么大模型(以 GPT、LLaMA、文心一言等为代表的大规模预训练语言模型)的核心原理可概括为:基于 Transformer 架构,通过 “海量数据预训练 + 场景化微调”,学习语言的统计规律与语义关联,最终实现 “理解输入 + 生成符合语境的输出”。其本质是 “数据驱动的概率性语言建模”,而非真正的 “思考”,核心逻辑可拆解为「架构基础→训练流程→推理机制→工程支撑」四大模块,结合 IT 从业者熟悉的技术逻辑(如分布式计算、特征工程)通俗解释:
MonkeyKing_sunyuhua10 天前
gpu
什么是GPU机器,怎么计算GPU显卡的算力,应该从那几个方面计算“GPU机器 = 专门装了1块或多块GPU来做并行计算的服务器/工作站; GPU算力 ≈『算数能力(FLOPS/TOPS)』×『喂数据能力(显存容量+带宽)』×『连接能力(NVLink/PCIe/网络)』×『实际利用率』。
Baihai_IDP10 天前
人工智能·面试·gpu
AI 处理器全景指南(CPU、GPU、TPU、APU、NPU、IPU、RPU...)编者按: 当大模型的算力需求呈指数级增长,GPU 还是唯一答案吗?在 AI 硬件军备竞赛愈演愈烈的今天,是否存在更高效、更专精、甚至更具颠覆性的替代方案?
Eloudy10 天前
人工智能·gpu·arch
06章 矢量ALU运算 - “Vega“ 7nm Instruction Set ArchitectureReference Guide矢量ALU指令(VALU)对64个线程中的每一个线程的数据执行算术或逻辑操作,并将结果写回VGPR、SGPR或EXEC掩码。