gpu

量子位6 小时前
人工智能·gpu
蚂蚁国产 GPU 训练大模型细节曝光!Ling 模型研发负责人回应:关于我们抠 FLOPS 的一些点滴蚂蚁开源大模型的低成本训练细节,疑似曝光!这段时间,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款 MoE 大模型,能够在国产 GPU 上完成与英伟达同效的训练。一时间,该消息在技术圈发酵,登上了热搜,甚至还传出「计算成本低于 DeepSeek」一些传闻。
HyperAI超神经2 天前
人工智能·python·深度学习·学习·教程·gpu·tvm
【TVM教程】使用 TVMC Micro 执行微模型Apache TVM是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →https://tvm.hyper.ai/
扫地的小何尚2 天前
c++·人工智能·深度学习·gpu·nvidia·cuda
NVIDIA TensorRT 深度学习推理加速引擎详解在当今人工智能和深度学习快速发展的时代,模型推理性能已成为实际应用中的关键瓶颈。无论是需要实时响应的自动驾驶系统,还是要处理海量数据的推荐引擎,亦或是资源受限的边缘设备上的AI应用,都对推理速度、延迟和能耗提出了严苛的要求。NVIDIA TensorRT作为一个高性能的深度学习推理优化器和运行时环境,正是为解决这些挑战而生。
哦豁灬5 天前
学习·架构·gpu
CUDA 学习(1)——GPU 架构典型 CPU 架构与 GPU 架构对比:深度学习中存在大量矩阵运算都可以并行执行,GPU 非常适合对这类高度并行性的任务进行计算加速。
小白跃升坊6 天前
ai·大语言模型·it运维·gpu
Ubuntu安装GPU驱动+CUDA+cuDNN的安装方法一台有GPU的虚拟机如果没有安装CUDA的驱动,是需要我们手动去进行安装的,介绍Ubuntu操作系统的安装教程。
红尘散仙9 天前
rust·typescript·gpu
三、WebGPU 基础入门——绘制三角型本节将通过一个简单的例子,带你一步步认识WebGPU的渲染管线,并学习如何编写顶点着色器和片元着色器。我们将使用TypeScript和Rust两种编程语言来实现这个例子。
web像素之境9 天前
webgl·gpu
webgl程序与GPU渲染管线硬件的对应(详细版)初学webgl的朋友可能觉得它的绘图过程非常麻烦,绘图逻辑也不像canvas2D那般直接,这与GPU渲染管线的硬件结构有直接关系,下面结合webgl代码对渲染管线的硬件进行一个大概的梳理。
庸俗今天不摸鱼9 天前
前端·性能优化·gpu
【万字总结】前端全方位性能优化指南(三)当每秒60帧的流畅渲染遭遇百万级多边形场景,传统CPU绘图如同单车道上的赛车——即便引擎轰鸣,依然难逃卡顿困局。现代GPU加速技术将渲染任务从「单车道」扩展到「八车道」,本章以分层爆破、API革命、线程联邦为技术支柱,拆解如何通过GPU合成层隔离静态元素实现90%重绘削减,利用WebGPU原生访问现代显卡实现10倍3D性能飞跃,更通过OffscreenCanvas构建多线程渲染矩阵,让主线程彻底摆脱像素计算的「枷锁」。从光栅化到着色器,一场浏览器与显卡的深度握手正在重构渲染法则。
红尘散仙13 天前
rust·typescript·gpu
二、WebGPU 基础入门——基础知识WebGPU 是由 W3C GPU for the Web 工作组主导设计的新一代 Web 图形与计算 API,旨在为现代 GPU 硬件提供底层访问能力,同时兼顾跨平台兼容性(支持 Vulkan/Metal/DirectX 12 等原生接口)。相较于 WebGL,它通过显式资源管理、多线程渲染和低开销指令设计,实现了10倍级性能提升,并首次在 Web 平台原生支持通用 GPU 计算(GPGPU)。
红尘散仙13 天前
rust·typescript·gpu
一、WebGPU 基础入门——环境搭建本系列文章源于我的WebGPU技术学习实践,尝试通过TypeScript与Rust双重视角解构现代图形API的设计哲学。区别于单一语言的学习路径,这种跨语言对照的方式能够更清晰地揭示:
受累的大忽悠16 天前
gpu·监控
docker容器监控 - 挂载监控gpu (amd、nvidia、ppu)方式本文旨在研究 docker 挂载gpu以及对应gpu的监控方式随意找一个镜像测试执行 inspectdocker inspect test12
nuczzz16 天前
kubernetes·k8s·gpu·nvidia·cuda
NVIDIA k8s-device-plugin源码分析与安装部署在《kubernetes Device Plugin原理与源码分析》一文中,我们从源码层面了解了kubelet侧关于device plugin逻辑的实现逻辑,本文以nvidia管理GPU的开源github项目k8s-device-plugin为例,来看看设备插件侧的实现示例。
北冥有鱼被烹17 天前
gpu·mellanox
【问题记录】如何编译nv_peer_memory模块?依赖OFED的4个目录和2类文件?如何解决没有rdma/peer_mem.h文件?GDR:GPUDirect RDMA。这项新技术在 GPU 内存之间直接与 NVIDIA HCA/NIC 设备之间提供直接的 P2P(点对点)数据路径。这显着降低了 GPU-GPU 通信延迟,并完全减轻了 CPU 的负担。nv_peer_memory模块是网卡提供给GPU使用GDR技术的模块,介于GPU驱动和OFED之间。 nv_peer_memory依赖OFED的接口。
东锋1.321 天前
gpu·nvidia
NVIDIA(英伟达) GPU 芯片架构发展史CUDA 核心数量(个):决定了 GPU 并行处理能力,在 AI 等并行计算类业务下,CUDA 核心越多性能越好。
KIDGINBROOK22 天前
gpu·cuda
DeepSeek DeepEP学习(一)low latency dispatch为了优化延迟,low lantency使用卡间直接收发cast成fp8的数据的方式,而不是使用normal算子的第一步执行机间同号卡网络发送,再通过nvlink进行转发的两阶段方式。进一步地,normal算子的dispatch包含了notify_dispatch传输meta信息和dispatch传输实际数据两个kernel,而low lantency也省去了notify的过程,为此需要的代价就是显存占用较高,而且也需要配合deepseek版本的gemm。
AI小白龙1 个月前
pytorch·python·gpu·cuda编程
使用torch.compile进行CPU优化在PyTorch中,使用torch.compile可以自动地将模型转换成优化的执行代码,这对于提升模型在CPU上的运行效率尤其有用。torch.compile是基于TorchDynamo实现的,它可以将Python代码转换为高效的TorchScript代码。这对于那些在CPU上运行的大型模型尤其有益,因为它可以减少运行时开销并提高整体性能。
怪怪王1 个月前
驱动开发·gpu·opengl
【GPU驱动】OpenGLES图形管线渲染机制OpenGL/ES 的渲染管线也是一个典型的图形流水线(Graphics Pipeline),包括多个阶段,每个阶段都负责对图形数据进行处理。管线的核心目标是将图形数据转换为最终的图像,这些图像可以显示在屏幕上。
叶庭云1 个月前
pytorch·深度学习·gpu·empty_cache·内存缓存管理
PyTorch 深度学习框架中 torch.cuda.empty_cache() 的妙用与注意事项🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/在使用 PyTorch 进行深度学习模型训练与调优过程中,torch.cuda.empty_cache() 方法作为一种高效工具被广泛采用;但其正确应用要求充分理解该方法的功能及最佳实践。下文将对该方法的功能及最佳实践进行详细探讨:
smartcat20101 个月前
大模型·gpu
VLLM历次会议(2024.7)支持LLama3.1:量化:vllm git下的子项目:llm-compressorCPU offloading
LucianaiB2 个月前
python·ai·gpu·本地部署·deepseek
深度对比析:DeepSeek服务优胜本地部署、网页版与蓝耘GPU智算云平台的较量以及删除本地部署的过程🌟 嗨,我是LucianaiB!🌍 总有人间一两风,填我十万八千梦。🚀 路漫漫其修远兮,吾将上下而求索。