gpu

ACCELERATOR_LLC4 天前
人工智能·深度学习·大模型·transformer·gpu
【DataWhale组队学习】DIY-LLM Task4 GPU和GPU相关的优化原文链接这一章讲GPU发展、A100、SM、Warp、Tensor Core、FlashAttention、PageAttention等等,重点是理解为什么LLM训练和推理会天然走向GPU,以及为什么那么多优化都会回到访存、并行调度和IO上。 本章的展开也很科学,先讲GPU架构与执行模型,再讲内存模型和性能优化,最后讲FlashAttention与PageAttention具体工程案例。
飘忽不定的bug9 天前
linux·gpu·rk3576·panfrost
记录:RK3576 适配开源GPU驱动(panfrost)1.内核dts修改:2.修改内核配置正常启动后内核log如下:注意:CONFIG_DRM_IGNORE_IOTCL_PERMIT宏需要关闭,不然开机过程可能会出现下面错误,导致无法进入桌面。但是如果你用的是RK修改过的libdrm2库就不会出现这个问题。
FserSuN16 天前
cpu·gpu
GPU vs CPU 基本概念学习笔记CPU和GPU虽然都叫"处理器",但设计目标截然相反:生活类比:买到手的CPU/GPU外面是一个封装外壳。把外壳打开,里面有一块薄薄的硅片,这就是Die。Die上面用光刻技术刻出了几十亿个晶体管,组合成各种电路。
reset202116 天前
gpu·pid
GPU调试在 Linux 系统中,查询运行在某个特定 GPU 上的进程主要有以下几种方法,最常用的是 NVIDIA 官方提供的工具。
桃酥40318 天前
ai·gpu
GPU架构 - 零基础入门GPU是面向吞吐量设计的,它的算数逻辑单元(ALU)较小,因此单个算数运算耗时更长。然而,GPU拥有更多的ALU,从而实现了更高的吞吐量。同时,GPU也使用了更小的缓存和更简洁的控制单元,从而将更多芯片面积用于并行计算,通过并行来弥补运算延迟的问题。
d1z88818 天前
人工智能·python·深度学习·gpu·tensorrt
(十八)32天GPU测试从入门到精通-TensorRT-LLM 部署与优化day16TensorRT-LLM 是NVIDIA 官方的 LLM 推理优化库,提供业界领先的性能和完整的优化技术栈。作为 NVIDIA 生态的一部分,TensorRT-LLM 深度整合了 NVIDIA GPU 的各项优化技术,从 kernel 级别的融合到多 GPU 通信优化,再到量化支持,提供了一套完整的高性能推理方案。
CodeCraft Studio19 天前
信息可视化·.net·gpu·数据可视化·lightningchart·高性能图表开发·数据可视化引擎
LightningChart .NET v12.5.1 发布:高性能数据可视化再升级,赋能工业与实时数据场景近日,全球知名的高性能数据可视化组件厂商发布了 LightningChart .NET 最新版本 v12.5.1。此次版本在延续一贯“极致性能”的基础上,进一步强化了图表交互能力、数据分析体验以及开发灵活性,为工业制造、金融分析、科研仿真等高复杂度应用场景带来更强支撑。
HyperAI超神经22 天前
人工智能·深度学习·学习·机器学习·gpu·tvm·vllm
【TVM教程】理解 Relax 抽象层TVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。
逻极23 天前
人工智能·windows·gpu·amd·ollama
Windows平台Ollama AMD GPU编译全攻略:基于ROCm 6.2的实战指南(附构建脚本)Ollama作为当前热门的本地大语言模型运行框架,其官方版本主要针对NVIDIA CUDA进行了优化。对于广大AMD GPU用户而言,直接使用官方二进制包无法获得GPU硬件加速,导致模型推理速度大幅下降。本文将深入解析如何在Windows系统上,利用AMD ROCm 6.2 SDK,从源码编译出支持AMD GPU加速的Ollama版本,并详细解释每一步背后的技术原理与最佳实践。
HyperAI超神经1 个月前
人工智能·深度学习·学习·机器学习·gpu·orc·vllm
在线教程丨华中科大与小红书 hi lab开源dots.mocr,SOTA级OCR模型完美还原文档结构,图形也能转 SVG面对海量文档中的复杂图表、表格和多语言内容,传统 OCR 常常力不从心,主要原因是其核心能力集中于文本识别,往往将图表、公式、UI 布局等复杂视觉元素简单裁剪为图像,导致文档结构被破坏、语义关系丢失,难以满足高质量信息提取与重建需求。
d1z8881 个月前
gpu·nvidia·nccl
NCCL 测试完全指南:从概念到性能调优📅 版本:2026-03-30 🎯 目标:全面掌握 NCCL 测试方法,从入门到精通 📚 NCCL 版本:基于 NCCL 2.29.7 ⏱️ 预计阅读时间:3-5 小时 💻 适用对象:AI 工程师、HPC 开发者、系统管理员
HelloTonyGo1 个月前
gpu·nvidia·cuda·openclaw
个人游戏笔记本免费“养龙虾”(二)用显卡GPU运行OpenClaw,CUDA的安装与配置系列文章: 1. 个人游戏笔记本免费“养龙虾”(Win10+WSL2+OpenClaw 部署与配置指南)
被制作时长两年半的个人练习生1 个月前
gpu·deepseek
Engram论文笔记原文在https://link.zhihu.com/?target=https%3A//github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf。 这篇论文出了一段时间了,刚出的时候没怎么看懂,现在结合知乎的高赞回答看了一遍,已经养肥了。 这篇文章写几个我比较感兴趣的点,又查了一点资料。
被制作时长两年半的个人练习生1 个月前
gpu·cuda
blackwell和warp specialization的背景下如何理解CTA在Blackwell架构和Warp Specialization的背景下,CTA(协作线程数组)的概念和角色发生了重要演变,从传统的执行单元转变为更复杂的任务协调和数据流管理单元。
放逐者-保持本心,方可放逐1 个月前
javascript·cpu·gpu·热力图·cesium·核心渲染判断·渲染管线优化
地图 热力图核心封装以下是一个完整的HTML测试案例,演示如何使用整合后的MultiScaleHeatmapManager在Cesium中显示热力图。该案例生成5000个随机点(模拟北京市区周边数据),并包含简单的启用/禁用控制。
心歌技术1 个月前
python·gpu·性能对比·实验
CPU与GPU排序性能对比分析本实验通过实现CPU和GPU版本的大数排序算法,对比了两者在不同数据规模下的性能表现。实验结果表明,GPU在处理大规模数据排序时具有显著优势,而CPU在小规模数据上表现更好。本文详细介绍了实验设计、实现过程、结果分析以及编程步骤,为相关领域的性能优化提供参考。
叶智辽2 个月前
webgl·gpu·three.js
【Three.js 与 Shader】编写你的第一个自定义着色器,让模型拥有灵魂以前我觉得 Shader 是神仙才能看懂的东西,直到我发现它其实就是告诉 GPU“怎么画”的说明书。两年前我第一次接触 Shader,看了一篇教程,开头就是 gl_FragColor、varying、uniform 这些天书一样的词。我心想:这玩意儿是人写的吗?
波哥学开发2 个月前
webgl·gpu
# Three.js 进阶:如何绘制"像素大小固定"的箭头?三种方案全解析🎯 一句话总结:在 3D 场景中绘制 2D UI 标记,既要「像素恒定」又要「性能可控」,选对方案比写对代码更重要。
爱学习的大牛1232 个月前
学习·架构·gpu
GPU架构学习图形处理单元(Graphics Processing Unit,GPU)自诞生以来,已从专注于图形渲染的专用硬件演变为支撑现代计算科学、人工智能、科学仿真乃至区块链等多元领域的通用并行计算引擎。其核心架构设计理念——以大规模并行性换取高吞吐量——与传统中央处理单元(CPU)的低延迟串行执行路线形成了鲜明对比。本文将系统、深入地剖析GPU的架构演进历程、核心组成部件、内存层次结构、执行模型、调度机制以及现代GPU在AI与高性能计算(HPC)领域的前沿扩展,旨在为读者提供一份兼具理论深度与工程实践价值的综合性
virtaitech2 个月前
人工智能·科技·ai·gpu·池化技术
趋动科技 OrionX 社区版永久免费:重塑 AI 算力格局的“胜负手”嘿,朋友,我知道你现在面临什么。看着GPU利用率监控,那条线永远在20%-30%徘徊。价值几十万的硬件,大部分时间都在“睡大觉”。