gpu

文火冰糖的硅基工坊19 小时前
arm开发·ai·架构·嵌入式·gpu
[嵌入式系统-123]:中高端图形处理器RM Mali-G610 MP4 GPU 是 ARM 公司推出的基于 Valhall 架构 的移动 GPUARM Mali-G610 MP4 GPU 是 ARM 公司推出的基于 Valhall 架构 的移动 GPU,属于 Mali-G600 系列,定位为中高端图形处理器。它采用四核设计(MP4 表示四核),支持多种现代图形 API,包括 OpenGL ES 3.2、OpenCL 2.2 和 Vulkan 1.1,能够提供高效的图形处理能力和并行计算性能。
BothSavage1 天前
linux·服务器·ubuntu·gpu·nvidia·cuda·nvcc
Ubuntu-8卡H20服务器升级nvidia驱动+cuda版本看到qwen3-vl-30b开源了,想测试下性能+资源占用,奈何部署sglang需要12.7版本的cuda?我目前手里的H20的服务器cuda版本最高只支持12.2所以需要升级驱动以及cuda版本,随使用官方.run还有apt install xx进行升级。之前用的火山官方ubuntu镜像,默认驱动535,后升级驱动550,570,580后,cuda也对应升级后,cuda都无法使用无论是在conda中,还是直接在宿主机上测试,最后发现是nvidia-fabricmanager问题,NVIDIA-Fabri
HelloGitHub4 天前
开源·github·gpu
求求了,别再让你的 GPU 公开“摸鱼”了!先看几个令人心动又让钱包一紧的 GPU 型号:NVIDIA A100 80GB、H800 80GB、RTX 4090 24GB...
扫地的小何尚6 天前
arm开发·人工智能·学习·自然语言处理·机器人·gpu·nvidia
Isaac Lab 2.3深度解析:全身控制与增强遥操作如何重塑机器人学习NVIDIA Isaac Lab 2.3的发布,标志着机器人学习领域,特别是人形机器人和灵巧操作,迈出了革命性的一步。这个早期开发者预览版不仅极大地提升了机器人的全身控制能力和运动性能,更通过一系列创新的遥操作和数据生成工具,为机器人学习流程的简化和加速开辟了新途径。本文将深入探讨Isaac Lab 2.3的核心新特性,并通过丰富的代码示例,展示如何利用这些功能来构建更智能、更强大的机器人系统。
Baihai_IDP7 天前
人工智能·llm·gpu
GPU 网络通信基础,Part 3(LLM 训练过程的网络通信;InfiniBand 真的是“封闭”技术吗?)编者按: 为什么训练大语言模型需要如此苛刻的网络条件?InfiniBand 真的是“封闭”技术吗?英伟达在 AI 网络领域的优势究竟从何而来?
胡耀超17 天前
服务器·人工智能·架构·gpu·储存·闪存
4、存储系统架构 - 从机械到闪存的速度革命核心学习目标:理解现代存储系统的层次化架构,掌握不同存储技术的性能特征和适用场景,学习存储IO路径优化技术,建立存储系统性能调优的工程能力。为理解GPU显存管理和数据传输策略奠定基础。
Baihai_IDP18 天前
人工智能·llm·gpu
GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)编者按: 在大规模人工智能模型训练日益依赖分布式 GPU 集群的今天,我们是否真正理解支撑这些系统高效运行的网络架构?数据如何从存储设备抵达 GPU?训练过程中不同并行策略又如何对网络提出截然不同的挑战?
扫地的小何尚19 天前
arm开发·人工智能·自然语言处理·gpu·nvidia·jetson·nvidia thro
CUDA 13.0深度解析:统一ARM生态、UVM增强与GPU共享的革命随着NVIDIA CUDA Toolkit 13.0的发布,嵌入式和边缘计算领域正迎来一场深刻的变革。专为搭载NVIDIA Blackwell GPU架构的Jetson Thor SoC优化,此版本不仅带来了前所未有的性能提升,更通过一系列革命性的更新,重塑了开发者的工作流。从统一的ARM平台CUDA工具包,到完全硬件一致性的统一虚拟内存(UVM),再到多进程服务(MPS)和绿色上下文等GPU共享功能,CUDA 13.0正在为边缘AI应用开启一个更快、更高效、更通用的新时代。
扫地的小何尚21 天前
神经网络·r语言·机器人·llm·gpu·nvidia
R²D²深度解析:NVIDIA三大神经网络突破如何变革机器人学习尽管今天的机器人在受控环境中表现出色,但它们在面对现实世界的不可预测性、灵巧性以及与环境进行精细交互时,仍然显得力不从心。无论是组装精密的电子元件,还是像人一样自然地操作日常物品,都对机器人的学习和适应能力提出了极高的要求。
Eloudy21 天前
gpu·risc-v·arch
全文 -- Vortex: Extending the RISC-V ISA for GPGPU and 3D-Graphics ResearchVortex: Extending the RISC-V ISA for GPGPU and 3D-Graphics Research
扫地的小何尚21 天前
人工智能·语言模型·llm·gpu·量子计算·nvidia·cuda
深度解析 CUDA-QX 0.4 加速 QEC 与求解器库在通往大规模、容错量子超级计算机的征程中,量子纠错(Quantum Error Correction, QEC)既是最大的机遇,也是最严峻的挑战 。它将当今的含噪中等规模量子(Noisy Intermediate-Scale Quantum, NISQ)设备与未来的强大计算引擎区分开来。克服这一挑战需要的不仅仅是渐进式的改进,而是一场范式革命——从零散、受限于 CPU 的研究工具,转向一个紧密集成、大规模并行、端到端的开发平台。
Baihai_IDP22 天前
人工智能·llm·gpu
GPU 网络通信基础,Part 1(横向与纵向扩展;训练中的通信环节...)编者按: 当我们谈论训练万亿参数的大语言模型时,除了惊叹于其算力需求,是否曾深入思考过:如何让成千上万甚至数十万块 GPU 高效协同工作,像超级大脑般实时共享信息?
charlie11451419124 天前
前端·chrome·学习·渲染·gpu·客户端
Chrome View渲染机制学习小记笔者最近正在看一点Chrome的源码,觉得这里的源码非常的庞大,找到了年初看Linux源码的感觉了。好在Chrome的文档非常的齐全,可以非常好的帮助我们入门。这一篇文章更多的是将Chrome Documentations和我翻到的一些文章的一次整理和归纳。
Nicander1 个月前
webgl·gpu
上帝视角看 GPU 学习笔记上帝视角看GPU(1):图形流水线基础_哔哩哔哩_bilibili《上帝视角看 GPU》龚大教程学习笔记。
杰克逊的日记1 个月前
压力测试·gpu
用deepseek对GPU服务器进行压力测试利用 DeepSeek 模型对 GPU 服务器进行压力测试,核心思路是通过模拟高负载的模型推理 / 微调任务,验证 GPU 服务器在计算、显存、网络等维度的承载能力,同时观察稳定性与性能瓶颈。以下是具体的测试方案,涵盖测试环境准备、核心测试场景、指标监控与结果分析:
小武~1 个月前
ubuntu·gpu·黑屏
ubuntu 系統使用過程中黑屏問題分析工欲善其事,必先利其器。作为程序员,想要得到更好的发展,遇到问题直接baidu, google 虽然可以得到一些参考或者答案,但是也会降低自己的思考能力,本文以ubuntu 使用过程中黑屏这一问题为背景,旨在提供一个从零开始完全不借助搜索引擎的问题分析方法。
weiwei228441 个月前
gpu·cuda·nsight compute
NVIDIA Kernel级性能分析工具Nsight Compute入门详解仍以之前的vectorAdd程序为分析目标,在新建的工程中只指定编译好的可执行文件及其输出report文件,其他部分都保持默认,然后直接点击“Launch”进行分析。
云道轩1 个月前
阿里云·华为云·云计算·gpu·rocky linux
阿里云和华为云Rocky LINUX 9.X镜像就绪及低端可用英伟达GPU阿里云和华为云Rocky LINUX 9.X镜像已经就绪低端可用英伟达GPU
杰克逊的日记2 个月前
运维·cpu·gpu
gpu与cpu各厂商的优劣国内CPU厂商GPU厂商
weiwei228442 个月前
gpu·cuda·nsight systems
NVIDIA系统级性能分析工具Nsight Systems入门详解Nsight Systems(简称nsys)是NVIDIA推出的一款系统级性能分析工具,主要用于优化 GPU 加速应用程序(尤其是基于 CUDA、OpenCL、DirectX、Vulkan 等 API 开发的程序)的性能,帮助开发者定位和解决计算、内存、通信等环节的瓶颈。所谓系统层面的分析工具,除了分析GPU的使用,还要分析CPU的使用,以及CPU和GPU的交互情况,可以捕捉CPU和GPU的各种事件,发现CPU和GPU上的等待以及不必要的同步,可以通过Nsight systems将任务均匀的分配到CPU和