gpu

I_belong_to_jesus

tiny-gpu入门4: ALU模块分析ALU模块代码如下：ALU会基于控制信号：[2:0] core_state、decoded_alu_output_mux和[1:0]decoded_alu_arithmetic_mux，对寄存器rs和rt的值执行具体的计算。

推理成本吞噬AI未来，云计算如何平衡速度与成本的难题？当前AI规模化应用正面临着核心困境：在追求极致响应速度的同时，如何控制呈指数级增长的计算成本？过去一年，生成式AI模型吸引了无数关注，但与之对应的训练和推理计算系统却面临着成本与效率的双重挑战。

扫地的小何尚

AI创新的火花：NVIDIA DGX Spark开箱与深度解析长久以来，拥有数据中心级的AI算力似乎是少数顶尖实验室和大型企业的专属。然而，NVIDIA通过一款颠覆性的产品，彻底改变了这一格局。今天，我们怀着无比激动的心情，为大家带来NVIDIA DGX Spark的独家开箱评测。这款被称为“全球最小AI超级计算机”的设备，将一PetaFLOP的AI性能浓缩于一个精致的桌面级包装中，预示着一个AI全民化、创新遍地开花的全新时代已经到来。

扫地的小何尚

一小时内使用NVIDIA Nemotron创建你自己的Bash计算机使用智能体想象一下，如果你能和你的电脑对话，让它通过Bash终端执行任务，而你却无需编写任何一条命令，那会是怎样一种体验？借助NVIDIA Nemotron Nano v2，你可以在一小时内，用大约200行Python代码，从零开始轻松构建一个自然语言Bash智能体，并且依赖极少。

5、服务器互连技术（小白入门版）学习承诺：读完本文，你会像理解"电器怎么插插座"一样，理解服务器各部件如何连接。核心比喻：把服务器想象成一个超级物流中心，各种货物（数据）需要在不同仓库（硬件）之间快速运输。

NVIDIA Blackwell Ultra GB300深度解析：AI芯片性能的新巅峰在人工智能技术飞速发展的2025年，计算硬件的能力直接决定了AI创新的边界。NVIDIA作为AI计算领域的领导者，再次以其革命性的Blackwell Ultra GB300 GPU重新定义了AI芯片的性能标准。这款芯片不仅是技术参数的简单堆砌，更是从架构设计、内存系统、互连技术到能效管理的全方位革新，为下一代万亿参数级AI模型提供了坚实的计算基础。

基于k8s的Python的分布式深度学习训练平台搭建简单实践随着人工智能技术的迅猛发展，深度学习在各个领域的应用越来越广泛。然而，深度学习模型训练通常需要大量的计算资源，单机训练往往难以满足需求。分布式深度学习训练平台应运而生，成为解决这一问题的关键。本文将详细介绍如何在Kubernetes环境下，基于Python搭建一个高效的分布式深度学习训练平台。

爱听歌的周童鞋

斯坦福大学 | CS336 | 从零开始构建语言模型 | Spring 2025 | 笔记 | Lecture 5: GPUs学习斯坦福的 CS336 课程，本篇文章记录课程第五讲：GPU，记录下个人学习笔记，仅供自己参考😄website：https://stanford-cs336.github.io/spring2025

文火冰糖的硅基工坊

[创业之路-702]：“第三次”与“第四次工业革命”的范式跃迁第三次工业革命，用通用CPU/DSP+计算机软件构建了一个庞大的自动化、移动化、数字化、信息化的虚拟世界，重塑了物理世界的运行方式。第四次工业革命，用通用GPU/NPU+AI算法软件要构建一个庞大的智能化、拟人化、意识化、生命化的虚拟世界，要重塑已经用CPU构建的庞大的虚拟世界。革命的本质用新秩序、新规则替代既存的秩序和规则，相邻革命之间的距离由千年，到几百年，到百年，到几十年，时间越来越短。主战场依然在能进行边缘计算的终端和云☁️端的平台，中间的通信网孜孜不倦地提供更广、更快、更大、更灵活的数据运

文火冰糖的硅基工坊

[嵌入式系统-136]：主流AIOT智能体软件技术栈主流AIoT（人工智能物联网）智能体软件技术栈涵盖了硬件、通信、AI算法、安全防护等多个层面，其核心在于通过“感知-分析-决策-执行”的闭环架构，将物联网的连接能力与人工智能的认知能力深度融合。以下从技术架构、关键技术栈、应用场景三个维度进行解析：

文火冰糖的硅基工坊

[嵌入式系统-134]：智能体以及其嵌入式硬件架构智能体是能够感知环境、自主决策并执行行动（感知、决策、执行）以实现特定目标的系统，其嵌入式硬件架构是支撑这些能力的物理基础，通常由感知模块、计算处理模块（通用管理模块智能决策模块）、执行模块、通信模块及电源管理模块构成，各模块协同工作以实现智能体的核心功能。

文火冰糖的硅基工坊

[嵌入式系统-123]：中高端图形处理器RM Mali-G610 MP4 GPU 是 ARM 公司推出的基于 Valhall 架构的移动 GPUARM Mali-G610 MP4 GPU 是 ARM 公司推出的基于 Valhall 架构的移动 GPU，属于 Mali-G600 系列，定位为中高端图形处理器。它采用四核设计（MP4 表示四核），支持多种现代图形 API，包括 OpenGL ES 3.2、OpenCL 2.2 和 Vulkan 1.1，能够提供高效的图形处理能力和并行计算性能。

Ubuntu-8卡H20服务器升级nvidia驱动+cuda版本看到qwen3-vl-30b开源了，想测试下性能+资源占用，奈何部署sglang需要12.7版本的cuda？我目前手里的H20的服务器cuda版本最高只支持12.2所以需要升级驱动以及cuda版本，随使用官方.run还有apt install xx进行升级。之前用的火山官方ubuntu镜像，默认驱动535，后升级驱动550，570，580后，cuda也对应升级后，cuda都无法使用无论是在conda中，还是直接在宿主机上测试，最后发现是nvidia-fabricmanager问题，NVIDIA-Fabri

求求了，别再让你的 GPU 公开“摸鱼”了！先看几个令人心动又让钱包一紧的 GPU 型号：NVIDIA A100 80GB、H800 80GB、RTX 4090 24GB...

扫地的小何尚

Isaac Lab 2.3深度解析：全身控制与增强遥操作如何重塑机器人学习NVIDIA Isaac Lab 2.3的发布，标志着机器人学习领域，特别是人形机器人和灵巧操作，迈出了革命性的一步。这个早期开发者预览版不仅极大地提升了机器人的全身控制能力和运动性能，更通过一系列创新的遥操作和数据生成工具，为机器人学习流程的简化和加速开辟了新途径。本文将深入探讨Isaac Lab 2.3的核心新特性，并通过丰富的代码示例，展示如何利用这些功能来构建更智能、更强大的机器人系统。

GPU 网络通信基础，Part 3（LLM 训练过程的网络通信；InfiniBand 真的是“封闭”技术吗？）编者按：为什么训练大语言模型需要如此苛刻的网络条件？InfiniBand 真的是“封闭”技术吗？英伟达在 AI 网络领域的优势究竟从何而来？

4、存储系统架构 - 从机械到闪存的速度革命核心学习目标：理解现代存储系统的层次化架构，掌握不同存储技术的性能特征和适用场景，学习存储IO路径优化技术，建立存储系统性能调优的工程能力。为理解GPU显存管理和数据传输策略奠定基础。

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）编者按：在大规模人工智能模型训练日益依赖分布式 GPU 集群的今天，我们是否真正理解支撑这些系统高效运行的网络架构？数据如何从存储设备抵达 GPU？训练过程中不同并行策略又如何对网络提出截然不同的挑战？

扫地的小何尚

CUDA 13.0深度解析：统一ARM生态、UVM增强与GPU共享的革命随着NVIDIA CUDA Toolkit 13.0的发布，嵌入式和边缘计算领域正迎来一场深刻的变革。专为搭载NVIDIA Blackwell GPU架构的Jetson Thor SoC优化，此版本不仅带来了前所未有的性能提升，更通过一系列革命性的更新，重塑了开发者的工作流。从统一的ARM平台CUDA工具包，到完全硬件一致性的统一虚拟内存（UVM），再到多进程服务（MPS）和绿色上下文等GPU共享功能，CUDA 13.0正在为边缘AI应用开启一个更快、更高效、更通用的新时代。

扫地的小何尚

R²D²深度解析：NVIDIA三大神经网络突破如何变革机器人学习尽管今天的机器人在受控环境中表现出色，但它们在面对现实世界的不可预测性、灵巧性以及与环境进行精细交互时，仍然显得力不从心。无论是组装精密的电子元件，还是像人一样自然地操作日常物品，都对机器人的学习和适应能力提出了极高的要求。