gpu

林多6 天前
android·gpu·性能·实现原理·过度绘制·overdraw
【Android】 GPU过度绘制实现原理Android开发者模式应用提供了“调试GPU过度绘制”这个开关。打开这个开关,可以进行GPU绘制次数检测(用户性能优化) 效果类似下述图片
数据与后端架构提升之路9 天前
深度学习·gpu·性能调优
深度学习性能调优全景指南:数据、计算、显存、通信四大瓶颈的破局之道在大规模深度学习训练中,模型能不能跑、跑得快不快,从来都不只是"加几张卡"那么简单。训练一个大模型,本质上是一条由 磁盘 → 内存 → CPU → GPU → 网络 串起来的复杂流水线,任何一个环节出现短板,都会让昂贵的 GPU 算力被白白浪费。
Eloudy11 天前
gpu
华为UB协议与NVIDIA NVLink/NVSwitch在PCIe GPU场景下的技术替代性分析从纯粹技术层面分析,华为UB协议无法在PCIe GPU场景下完全取代NVIDIA NVLink/NVSwitch的角色。 虽然UB协议在协议栈完整性、物理层兼容性、带宽指标和交换机延迟等方面已达到甚至部分超越NVLink水平,但存在三个根本性的技术壁垒使其无法实现对NVLink的完全替代:第一,NVLink是NVIDIA GPU芯片内建的专用物理接口,NVIDIA GPU并未集成UB控制器/PHY,物理层面无法互通;第二,NVSwitch集成的SHARP集合通信硬件加速引擎在UB生态中尚无对等实现,这是A
木雷坞14 天前
docker·容器·gpu
内网模型服务启动链路分层实践5 月 6 日恢复一个内网模型演示环境时,我把问题拆成了七层,而不是只盯着 docker compose pull。
humors22115 天前
电脑·内存·测试·cpu·gpu·笔记本·硬盘
十款顶级跑分与排名软件全解析AI模型:Deepseek仅供参考。跑分软件就像电脑的“体检仪器”——通过标准化负载测试,将处理器、显卡、硬盘等硬件的性能转化为可量化的分数,便于与全球其他配置横向对比。然而,跑分高低并不完全等同于实际使用体验(例如:高跑分的固态硬盘在复制海量小文件时仍可能掉速),且测试环境、后台程序、驱动版本都会产生影响。本文精选10款行业公认的权威工具,涵盖游戏、办公、专业渲染、存储等不同场景,并特别关注它们是否提供在线排名数据库——让你能清晰看到自己的电脑处于什么“段位”。
humors22118 天前
电脑·cpu·gpu·显卡·笔记本·处理器·比较
硬件(处理器/显卡)大比拼(不定期更新)1.桌面CPU天梯图https://blog.csdn.net/humors221/article/details/160674484
zyk4219 天前
gpu
NVlink为什么那么快?你知道PCIe和NVlink的区别吗?"A CPU is a sprinter; a GPU is a marching band." —— 某 NVIDIA 工程师的内部比喻
zyk4220 天前
gpu
你的 GPU 为什么在摸鱼?——存储金字塔、带宽瓶颈与 Roofline 模型"Data movement is the enemy." —— Bill Dally,NVIDIA 首席科学家
ACCELERATOR_LLC24 天前
人工智能·深度学习·大模型·transformer·gpu
【DataWhale组队学习】DIY-LLM Task4 GPU和GPU相关的优化原文链接这一章讲GPU发展、A100、SM、Warp、Tensor Core、FlashAttention、PageAttention等等,重点是理解为什么LLM训练和推理会天然走向GPU,以及为什么那么多优化都会回到访存、并行调度和IO上。 本章的展开也很科学,先讲GPU架构与执行模型,再讲内存模型和性能优化,最后讲FlashAttention与PageAttention具体工程案例。
飘忽不定的bug1 个月前
linux·gpu·rk3576·panfrost
记录:RK3576 适配开源GPU驱动(panfrost)1.内核dts修改:2.修改内核配置正常启动后内核log如下:注意:CONFIG_DRM_IGNORE_IOTCL_PERMIT宏需要关闭,不然开机过程可能会出现下面错误,导致无法进入桌面。但是如果你用的是RK修改过的libdrm2库就不会出现这个问题。
FserSuN1 个月前
cpu·gpu
GPU vs CPU 基本概念学习笔记CPU和GPU虽然都叫"处理器",但设计目标截然相反:生活类比:买到手的CPU/GPU外面是一个封装外壳。把外壳打开,里面有一块薄薄的硅片,这就是Die。Die上面用光刻技术刻出了几十亿个晶体管,组合成各种电路。
reset20211 个月前
gpu·pid
GPU调试在 Linux 系统中,查询运行在某个特定 GPU 上的进程主要有以下几种方法,最常用的是 NVIDIA 官方提供的工具。
桃酥4031 个月前
ai·gpu
GPU架构 - 零基础入门GPU是面向吞吐量设计的,它的算数逻辑单元(ALU)较小,因此单个算数运算耗时更长。然而,GPU拥有更多的ALU,从而实现了更高的吞吐量。同时,GPU也使用了更小的缓存和更简洁的控制单元,从而将更多芯片面积用于并行计算,通过并行来弥补运算延迟的问题。
d1z8881 个月前
人工智能·python·深度学习·gpu·tensorrt
(十八)32天GPU测试从入门到精通-TensorRT-LLM 部署与优化day16TensorRT-LLM 是NVIDIA 官方的 LLM 推理优化库,提供业界领先的性能和完整的优化技术栈。作为 NVIDIA 生态的一部分,TensorRT-LLM 深度整合了 NVIDIA GPU 的各项优化技术,从 kernel 级别的融合到多 GPU 通信优化,再到量化支持,提供了一套完整的高性能推理方案。
CodeCraft Studio1 个月前
信息可视化·.net·gpu·数据可视化·lightningchart·高性能图表开发·数据可视化引擎
LightningChart .NET v12.5.1 发布:高性能数据可视化再升级,赋能工业与实时数据场景近日,全球知名的高性能数据可视化组件厂商发布了 LightningChart .NET 最新版本 v12.5.1。此次版本在延续一贯“极致性能”的基础上,进一步强化了图表交互能力、数据分析体验以及开发灵活性,为工业制造、金融分析、科研仿真等高复杂度应用场景带来更强支撑。
HyperAI超神经1 个月前
人工智能·深度学习·学习·机器学习·gpu·tvm·vllm
【TVM教程】理解 Relax 抽象层TVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。
逻极1 个月前
人工智能·windows·gpu·amd·ollama
Windows平台Ollama AMD GPU编译全攻略:基于ROCm 6.2的实战指南(附构建脚本)Ollama作为当前热门的本地大语言模型运行框架,其官方版本主要针对NVIDIA CUDA进行了优化。对于广大AMD GPU用户而言,直接使用官方二进制包无法获得GPU硬件加速,导致模型推理速度大幅下降。本文将深入解析如何在Windows系统上,利用AMD ROCm 6.2 SDK,从源码编译出支持AMD GPU加速的Ollama版本,并详细解释每一步背后的技术原理与最佳实践。
HyperAI超神经2 个月前
人工智能·深度学习·学习·机器学习·gpu·orc·vllm
在线教程丨华中科大与小红书 hi lab开源dots.mocr,SOTA级OCR模型完美还原文档结构,图形也能转 SVG面对海量文档中的复杂图表、表格和多语言内容,传统 OCR 常常力不从心,主要原因是其核心能力集中于文本识别,往往将图表、公式、UI 布局等复杂视觉元素简单裁剪为图像,导致文档结构被破坏、语义关系丢失,难以满足高质量信息提取与重建需求。
d1z8882 个月前
gpu·nvidia·nccl
NCCL 测试完全指南:从概念到性能调优📅 版本:2026-03-30 🎯 目标:全面掌握 NCCL 测试方法,从入门到精通 📚 NCCL 版本:基于 NCCL 2.29.7 ⏱️ 预计阅读时间:3-5 小时 💻 适用对象:AI 工程师、HPC 开发者、系统管理员
HelloTonyGo2 个月前
gpu·nvidia·cuda·openclaw
个人游戏笔记本免费“养龙虾”(二)用显卡GPU运行OpenClaw,CUDA的安装与配置系列文章: 1. 个人游戏笔记本免费“养龙虾”(Win10+WSL2+OpenClaw 部署与配置指南)