gpu

模型时代2 天前
gpu·数据中心·立讯精密
GPU之外,立讯精密想吃下AI数据中心的“连接生意“一个容易被忽略的细节,能说明立讯精密现在站在什么位置:截至2026年4月,立讯精密过半的研发投入,都花在还没产生收入的业务上,用来为即将落地的数据中心、连接和散热产品做前期技术储备。也就是说,市场眼下看到的立讯精密AI业务,更多是花出去的钱,还不是收回来的钱。
IC修真院3 天前
gpu·ic设计·芯片·微电子·数字ic·npu
高赞问题:NPU可不可以代替GPU?先说结论:NPU 不能完全代替 GPU,二者是「互补关系」,不是「取代关系」。一句话分清NPU和GPU的定位:
黑暗森林观察者4 天前
gpu
AMD 送了块顶级 GPU 给黑客,他能打穿英伟达 20 年的软件帝国吗?今天(6月5日),AI 圈流传着一则颇具黑客浪漫色彩的新闻:AMD 主动把顶级 AI 加速卡送给了传奇黑客 George Hotz——就是那个 17 岁破解 iPhone、18 岁破解 PS3 的人。
派勤电子5 天前
gpu·fpga·npu·工控机·ai工控机·fpga工控机·工业级工控机
2026 支持 FPGA 工控机 AI 加速应用场景详解虽然 NPU 和 GPU 在 AI 加速方面表现出色,但在一些特殊的应用场景中,FPGA 仍然具有不可替代的优势。FPGA 具有可编程性强、延迟低、并行度高、功耗低等优点,特别适合一些定制化的 AI 加速应用。
archi-dreamer8 天前
gpu·llvm·编译器与工具链
SlotIndex机制--以AMDGPU为例适用范围:LLVM AMDGPU(GCN/SI+)后端的 Machine IR、LiveIntervals、寄存器分配前优化与调度分析 通用实现:llvm/include/llvm/CodeGen/SlotIndexes.h、llvm/lib/CodeGen/SlotIndexes.cpp、llvm/include/llvm/CodeGen/LiveInterval.h
archi-dreamer8 天前
gpu·llvm·编译器与工具链
LiveInterval分析–以AMDGPU为例适用范围:LLVM AMDGPU(GCN/SI+)后端的 Machine IR、活跃性分析与寄存器分配
人月神话-Lee9 天前
图像处理·人工智能·ios·chatgpt·ai编程·swift·gpu
【图像处理】Core Image 与 GPU 渲染管线——让滤镜飞起来CPU 是一位精英工程师,一次专心做一件事; GPU 是一支万人工厂,每条流水线同时处理一块像素。 选对工具,差距可以是 10 倍。
AKAMAI11 天前
云计算·gpu
针对 Akamai Cloud 上的 NVIDIA RTX Pro 6000 Blackwell 进行基准测试基准测试显示,Akamai Cloud 上运行的 NVIDIA RTX PRO™ 6000 Blackwell 的推理吞吐量最高可达 H100 的 1.63 倍;在 100 个并发请求下,每台服务器的处理能力高达 24,240 TPS。
caodongwang11 天前
gpu·rdma·gdr
GPU Direct RDMA调研GPUDirect RDMA是GPU direct技术体系的一部分,用于跨机或者跨机柜级别的GPU互联通信的加速。GPUDirect RDMA主要是利用PCIe p2p的技术将GPU的内存暴露给RDMA网络设备进行data transfer,将传统通过系统内存的RDMA操作bypass掉,避免GPU mem和host mem之间的mem copy。
archi-dreamer13 天前
gpu·llvm·编译器与工具链
AMDGPU后端RegMask使用介绍摘要:本文系统介绍了 LLVM MI 层 RegMask 在 AMDGPU 后端中的核心作用与实现机制。RegMask 作为 MachineOperand 的特殊操作数,通过位图编码描述指令执行后哪些物理寄存器被保留(preserved)而非被破坏(clobbered)。在 AMDGPU 中,RegMask 主要服务于 call 边界上的寄存器活跃性分析和分配约束,其来源是 AMDGPUCallingConv.td 中定义的 calling convention 和 CSR(Callee-Saved Re
fhqlongteng14 天前
前端·javascript·electron·gpu·rk3576
RK3576上electron调用GPU的功能设置方法这次测试使用的是天启的RK3576开发板,开发板使用debian根文件系统和xfce4的桌面软件,内部chromium浏览器,浏览器的版本是132.0.6843.83。打开浏览器运行chrom://gpu显示如下:
Dfreedom.17 天前
人工智能·深度学习·gpu·gpu加速·模型加速·算子融合·模型计算
算子融合:从硬件本质到性能飞跃的深度学习优化艺术在深度学习模型部署中,我们经常遇到这样的困境:同样的模型,同样的硬件,为什么推理速度却有天壤之别?一个在GPU上需要20ms的模型,经过优化后可能只需要5ms。这背后的关键优化技术之一就是算子融合。
佳杰云星18 天前
人工智能·kubernetes·大模型·云计算·gpu·算力调度·智算中心
如何给大模型集群选“大脑”?智算调度与管理平台 10 维选型指南(附选型评分表)随着大模型引发的 AI 浪潮席卷各行各业,智算中心、企业 AI 平台和科研算力集群的建设迎来爆发式增长。然而,如何高效管理动辄成百上千卡、甚至异构多元的算力资源,成为摆在技术架构师和运营者面前的难题。
archi-dreamer19 天前
gpu·llvm·编译器与工具链
AMDGPU 后端 ABI 总览适用范围:llvm/lib/Target/AMDGPU(GCN/SI 及以后,GCNSubtarget) CPU ABI 参考(可选):llvm/lib/Target/X86/X86CallingConv.td(如 CC_X86_64_C)
林多1 个月前
android·gpu·性能·实现原理·过度绘制·overdraw
【Android】 GPU过度绘制实现原理Android开发者模式应用提供了“调试GPU过度绘制”这个开关。打开这个开关,可以进行GPU绘制次数检测(用户性能优化) 效果类似下述图片
数据与后端架构提升之路1 个月前
深度学习·gpu·性能调优
深度学习性能调优全景指南:数据、计算、显存、通信四大瓶颈的破局之道在大规模深度学习训练中,模型能不能跑、跑得快不快,从来都不只是"加几张卡"那么简单。训练一个大模型,本质上是一条由 磁盘 → 内存 → CPU → GPU → 网络 串起来的复杂流水线,任何一个环节出现短板,都会让昂贵的 GPU 算力被白白浪费。
Eloudy1 个月前
gpu
华为UB协议与NVIDIA NVLink/NVSwitch在PCIe GPU场景下的技术替代性分析从纯粹技术层面分析,华为UB协议无法在PCIe GPU场景下完全取代NVIDIA NVLink/NVSwitch的角色。 虽然UB协议在协议栈完整性、物理层兼容性、带宽指标和交换机延迟等方面已达到甚至部分超越NVLink水平,但存在三个根本性的技术壁垒使其无法实现对NVLink的完全替代:第一,NVLink是NVIDIA GPU芯片内建的专用物理接口,NVIDIA GPU并未集成UB控制器/PHY,物理层面无法互通;第二,NVSwitch集成的SHARP集合通信硬件加速引擎在UB生态中尚无对等实现,这是A
木雷坞1 个月前
docker·容器·gpu
内网模型服务启动链路分层实践5 月 6 日恢复一个内网模型演示环境时,我把问题拆成了七层,而不是只盯着 docker compose pull。
humors2211 个月前
电脑·内存·测试·cpu·gpu·笔记本·硬盘
十款顶级跑分与排名软件全解析AI模型:Deepseek仅供参考。跑分软件就像电脑的“体检仪器”——通过标准化负载测试,将处理器、显卡、硬盘等硬件的性能转化为可量化的分数,便于与全球其他配置横向对比。然而,跑分高低并不完全等同于实际使用体验(例如:高跑分的固态硬盘在复制海量小文件时仍可能掉速),且测试环境、后台程序、驱动版本都会产生影响。本文精选10款行业公认的权威工具,涵盖游戏、办公、专业渲染、存储等不同场景,并特别关注它们是否提供在线排名数据库——让你能清晰看到自己的电脑处于什么“段位”。
humors2211 个月前
电脑·cpu·gpu·显卡·笔记本·处理器·比较
硬件(处理器/显卡)大比拼(不定期更新)1.桌面CPU天梯图https://blog.csdn.net/humors221/article/details/160674484