gpu

XuanXu3 天前
性能优化·gpu
CUDA&OpenCL并行编程大家都知道AI现在很火,为什么AI需要用显卡来跑呢,NVIDIA为啥赚的盆满钵满。最近我就去稍微研究了一下并行计算。AI计算本质上就是一大堆矩阵运算,而矩阵运算天生就适合使用并行计算进行优化。
杰克逊的日记4 天前
人工智能·ai·gpu·ai集群·pytorach
AI集群设计以下是一个简单的 Kubernetes 配置文件示例,用于在集群中运行一个基于 TensorFlow 的训练任务:
mortimer8 天前
github·gpu·nvidia
5090 装机后无法使用 GPU 加速?别急,这里有解决办法!很多喜欢本地部署 AI 项目的朋友,总是追着英伟达最新显卡跑。RTX 4090 刚出时,迫不及待换上,体验飞一般的算力。RTX 5090 发布后,又是一波抢购热潮。然而,装上 5090 后,悲剧出现了:程序跑不动 GPU 加速,速度慢得像乌龟,甚至直接报错崩溃,连启动都成问题!
deephub9 天前
人工智能·深度学习·gpu·计算加速
计算加速技术比较分析:GPU、FPGA、ASIC、TPU与NPU的技术特性、应用场景及产业生态在计算技术快速迭代的今天,传统通用处理器(CPU)正逐步被专用硬件加速器补充或替代,尤其在特定计算领域。这些加速器通过针对性设计,在功耗效率、计算吞吐量(FLOPS)和内存带宽方面实现了显著优化。截至2025年4月,加速器市场需求呈指数级增长,主要驱动因素来自人工智能(AI)、机器学习(ML)、高性能计算(HPC)及边缘计算应用的广泛部署。本文将深入剖析五类主要计算加速器——GPU、FPGA、ASIC、TPU和NPU,从技术架构、性能特点、应用领域到产业生态进行系统化比较,并分析在不同应用场景下各类加速器
扫地的小何尚12 天前
android·java·c++·链表·语言模型·机器人·gpu
NVIDIA工业设施数字孪生中的机器人模拟数字孪生是真实物理对象或系统的虚拟复制品,它能够在虚拟环境中模拟真实世界的行为和性能。在工业自动化领域,数字孪生特别有价值,因为它们允许工程师:
ak啊14 天前
pytorch·python·gpu
PyTorch框架-Python GPU编程CUDA out of memory:设备不匹配错误:性能优化:通过这个教程,您应该能够: ✅ 配置Python GPU开发环境 ✅ 进行基础的GPU张量操作 ✅ 实现GPU加速的神经网络训练 ✅ 处理常见的GPU使用问题
扫地的小何尚16 天前
人工智能·算法·微服务·ai·架构·gpu
NVIDIA cuOpt:GPU加速优化AI微服务详解在当今数据驱动的世界中,优化问题无处不在,从物流配送路线规划到资源分配,从生产调度到投资组合优化。然而,随着问题规模的增长,传统的CPU求解器往往面临计算效率低下、求解时间长、精度不足等挑战。NVIDIA推出的cuOpt正是为了解决这些挑战而设计的GPU加速优化AI微服务。
量子位19 天前
人工智能·gpu
蚂蚁国产 GPU 训练大模型细节曝光!Ling 模型研发负责人回应:关于我们抠 FLOPS 的一些点滴蚂蚁开源大模型的低成本训练细节,疑似曝光!这段时间,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款 MoE 大模型,能够在国产 GPU 上完成与英伟达同效的训练。一时间,该消息在技术圈发酵,登上了热搜,甚至还传出「计算成本低于 DeepSeek」一些传闻。
HyperAI超神经20 天前
人工智能·python·深度学习·学习·教程·gpu·tvm
【TVM教程】使用 TVMC Micro 执行微模型Apache TVM是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →https://tvm.hyper.ai/
扫地的小何尚20 天前
c++·人工智能·深度学习·gpu·nvidia·cuda
NVIDIA TensorRT 深度学习推理加速引擎详解在当今人工智能和深度学习快速发展的时代,模型推理性能已成为实际应用中的关键瓶颈。无论是需要实时响应的自动驾驶系统,还是要处理海量数据的推荐引擎,亦或是资源受限的边缘设备上的AI应用,都对推理速度、延迟和能耗提出了严苛的要求。NVIDIA TensorRT作为一个高性能的深度学习推理优化器和运行时环境,正是为解决这些挑战而生。
哦豁灬23 天前
学习·架构·gpu
CUDA 学习(1)——GPU 架构典型 CPU 架构与 GPU 架构对比:深度学习中存在大量矩阵运算都可以并行执行,GPU 非常适合对这类高度并行性的任务进行计算加速。
小白跃升坊24 天前
ai·大语言模型·it运维·gpu
Ubuntu安装GPU驱动+CUDA+cuDNN的安装方法一台有GPU的虚拟机如果没有安装CUDA的驱动,是需要我们手动去进行安装的,介绍Ubuntu操作系统的安装教程。
红尘散仙1 个月前
rust·typescript·gpu
三、WebGPU 基础入门——绘制三角型本节将通过一个简单的例子,带你一步步认识WebGPU的渲染管线,并学习如何编写顶点着色器和片元着色器。我们将使用TypeScript和Rust两种编程语言来实现这个例子。
web像素之境1 个月前
webgl·gpu
webgl程序与GPU渲染管线硬件的对应(详细版)初学webgl的朋友可能觉得它的绘图过程非常麻烦,绘图逻辑也不像canvas2D那般直接,这与GPU渲染管线的硬件结构有直接关系,下面结合webgl代码对渲染管线的硬件进行一个大概的梳理。
庸俗今天不摸鱼1 个月前
前端·性能优化·gpu
【万字总结】前端全方位性能优化指南(三)当每秒60帧的流畅渲染遭遇百万级多边形场景,传统CPU绘图如同单车道上的赛车——即便引擎轰鸣,依然难逃卡顿困局。现代GPU加速技术将渲染任务从「单车道」扩展到「八车道」,本章以分层爆破、API革命、线程联邦为技术支柱,拆解如何通过GPU合成层隔离静态元素实现90%重绘削减,利用WebGPU原生访问现代显卡实现10倍3D性能飞跃,更通过OffscreenCanvas构建多线程渲染矩阵,让主线程彻底摆脱像素计算的「枷锁」。从光栅化到着色器,一场浏览器与显卡的深度握手正在重构渲染法则。
红尘散仙1 个月前
rust·typescript·gpu
二、WebGPU 基础入门——基础知识WebGPU 是由 W3C GPU for the Web 工作组主导设计的新一代 Web 图形与计算 API,旨在为现代 GPU 硬件提供底层访问能力,同时兼顾跨平台兼容性(支持 Vulkan/Metal/DirectX 12 等原生接口)。相较于 WebGL,它通过显式资源管理、多线程渲染和低开销指令设计,实现了10倍级性能提升,并首次在 Web 平台原生支持通用 GPU 计算(GPGPU)。
红尘散仙1 个月前
rust·typescript·gpu
一、WebGPU 基础入门——环境搭建本系列文章源于我的WebGPU技术学习实践,尝试通过TypeScript与Rust双重视角解构现代图形API的设计哲学。区别于单一语言的学习路径,这种跨语言对照的方式能够更清晰地揭示:
受累的大忽悠1 个月前
gpu·监控
docker容器监控 - 挂载监控gpu (amd、nvidia、ppu)方式本文旨在研究 docker 挂载gpu以及对应gpu的监控方式随意找一个镜像测试执行 inspectdocker inspect test12
nuczzz1 个月前
kubernetes·k8s·gpu·nvidia·cuda
NVIDIA k8s-device-plugin源码分析与安装部署在《kubernetes Device Plugin原理与源码分析》一文中,我们从源码层面了解了kubelet侧关于device plugin逻辑的实现逻辑,本文以nvidia管理GPU的开源github项目k8s-device-plugin为例,来看看设备插件侧的实现示例。
北冥有鱼被烹1 个月前
gpu·mellanox
【问题记录】如何编译nv_peer_memory模块?依赖OFED的4个目录和2类文件?如何解决没有rdma/peer_mem.h文件?GDR:GPUDirect RDMA。这项新技术在 GPU 内存之间直接与 NVIDIA HCA/NIC 设备之间提供直接的 P2P(点对点)数据路径。这显着降低了 GPU-GPU 通信延迟,并完全减轻了 CPU 的负担。nv_peer_memory模块是网卡提供给GPU使用GDR技术的模块,介于GPU驱动和OFED之间。 nv_peer_memory依赖OFED的接口。