技术栈
gpu
HyperAI超神经
2 天前
人工智能
·
深度学习
·
学习
·
机器学习
·
gpu
·
tvm
·
vllm
【TVM教程】理解 Relax 抽象层
TVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。
逻极
3 天前
人工智能
·
windows
·
gpu
·
amd
·
ollama
Windows平台Ollama AMD GPU编译全攻略:基于ROCm 6.2的实战指南(附构建脚本)
Ollama作为当前热门的本地大语言模型运行框架,其官方版本主要针对NVIDIA CUDA进行了优化。对于广大AMD GPU用户而言,直接使用官方二进制包无法获得GPU硬件加速,导致模型推理速度大幅下降。本文将深入解析如何在Windows系统上,利用AMD ROCm 6.2 SDK,从源码编译出支持AMD GPU加速的Ollama版本,并详细解释每一步背后的技术原理与最佳实践。
HyperAI超神经
8 天前
人工智能
·
深度学习
·
学习
·
机器学习
·
gpu
·
orc
·
vllm
在线教程丨华中科大与小红书 hi lab开源dots.mocr,SOTA级OCR模型完美还原文档结构,图形也能转 SVG
面对海量文档中的复杂图表、表格和多语言内容,传统 OCR 常常力不从心,主要原因是其核心能力集中于文本识别,往往将图表、公式、UI 布局等复杂视觉元素简单裁剪为图像,导致文档结构被破坏、语义关系丢失,难以满足高质量信息提取与重建需求。
d1z888
10 天前
gpu
·
nvidia
·
nccl
NCCL 测试完全指南:从概念到性能调优
📅 版本:2026-03-30 🎯 目标:全面掌握 NCCL 测试方法,从入门到精通 📚 NCCL 版本:基于 NCCL 2.29.7 ⏱️ 预计阅读时间:3-5 小时 💻 适用对象:AI 工程师、HPC 开发者、系统管理员
HelloTonyGo
17 天前
gpu
·
nvidia
·
cuda
·
openclaw
个人游戏笔记本免费“养龙虾”(二)用显卡GPU运行OpenClaw,CUDA的安装与配置
系列文章: 1. 个人游戏笔记本免费“养龙虾”(Win10+WSL2+OpenClaw 部署与配置指南)
被制作时长两年半的个人练习生
20 天前
gpu
·
deepseek
Engram论文笔记
原文在https://link.zhihu.com/?target=https%3A//github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf。 这篇论文出了一段时间了,刚出的时候没怎么看懂,现在结合知乎的高赞回答看了一遍,已经养肥了。 这篇文章写几个我比较感兴趣的点,又查了一点资料。
被制作时长两年半的个人练习生
22 天前
gpu
·
cuda
blackwell和warp specialization的背景下如何理解CTA
在Blackwell架构和Warp Specialization的背景下,CTA(协作线程数组)的概念和角色发生了重要演变,从传统的执行单元转变为更复杂的任务协调和数据流管理单元。
放逐者-保持本心,方可放逐
23 天前
javascript
·
cpu
·
gpu
·
热力图
·
cesium
·
核心渲染判断
·
渲染管线优化
地图 热力图核心封装
以下是一个完整的HTML测试案例,演示如何使用整合后的MultiScaleHeatmapManager在Cesium中显示热力图。该案例生成5000个随机点(模拟北京市区周边数据),并包含简单的启用/禁用控制。
心歌技术
1 个月前
python
·
gpu
·
性能对比
·
实验
CPU与GPU排序性能对比分析
本实验通过实现CPU和GPU版本的大数排序算法,对比了两者在不同数据规模下的性能表现。实验结果表明,GPU在处理大规模数据排序时具有显著优势,而CPU在小规模数据上表现更好。本文详细介绍了实验设计、实现过程、结果分析以及编程步骤,为相关领域的性能优化提供参考。
叶智辽
1 个月前
webgl
·
gpu
·
three.js
【Three.js 与 Shader】编写你的第一个自定义着色器,让模型拥有灵魂
以前我觉得 Shader 是神仙才能看懂的东西,直到我发现它其实就是告诉 GPU“怎么画”的说明书。两年前我第一次接触 Shader,看了一篇教程,开头就是 gl_FragColor、varying、uniform 这些天书一样的词。我心想:这玩意儿是人写的吗?
波哥学开发
1 个月前
webgl
·
gpu
# Three.js 进阶:如何绘制"像素大小固定"的箭头?三种方案全解析
🎯 一句话总结:在 3D 场景中绘制 2D UI 标记,既要「像素恒定」又要「性能可控」,选对方案比写对代码更重要。
爱学习的大牛123
2 个月前
学习
·
架构
·
gpu
GPU架构学习
图形处理单元(Graphics Processing Unit,GPU)自诞生以来,已从专注于图形渲染的专用硬件演变为支撑现代计算科学、人工智能、科学仿真乃至区块链等多元领域的通用并行计算引擎。其核心架构设计理念——以大规模并行性换取高吞吐量——与传统中央处理单元(CPU)的低延迟串行执行路线形成了鲜明对比。本文将系统、深入地剖析GPU的架构演进历程、核心组成部件、内存层次结构、执行模型、调度机制以及现代GPU在AI与高性能计算(HPC)领域的前沿扩展,旨在为读者提供一份兼具理论深度与工程实践价值的综合性
virtaitech
2 个月前
人工智能
·
科技
·
ai
·
gpu
·
池化技术
趋动科技 OrionX 社区版永久免费:重塑 AI 算力格局的“胜负手”
嘿,朋友,我知道你现在面临什么。看着GPU利用率监控,那条线永远在20%-30%徘徊。价值几十万的硬件,大部分时间都在“睡大觉”。
专注VB编程开发20年
2 个月前
算法
·
gpu
C#,VB.NET GPU计算和调试
c# OpenCL可以直接以源码形式调试吗?估计不行吧,要是可以事件方式返回结果,或者把结果写入C#的几个地址,通过监控主线程的一些内存或对象的地址,查看GPU运行进度和计算结果
love530love
2 个月前
人工智能
·
windows
·
gpu
·
cuda
·
ollama
·
lm studio
·
openclaw
【OpenClaw 本地实战 Ep.2】零代码对接:使用交互式向导快速连接本地 LM Studio 用 CUDA GPU 推理
目标:让 OpenClaw 调用本地 LM Studio 运行的模型,代替 Ollama 实现稳定的 CUDA GPU 推理,体验极速的本地模型服务 部署方式:从源代码部署(非 npm 全局安装) 环境:Windows + WSL2(推荐)或原生 Windows 版本:OpenClaw 2026.2.13 (a2b45e1)
Eloudy
2 个月前
机器学习
·
gpu
·
cuda
CUTLASS README v4.4.0
CUTLASS 4.4.0 - 2026年1月CUTLASS 是一套在 CUDA 中所有层次和规模上实现高性能矩阵乘法(GEMM)及相关计算的抽象集合。它融合了分层分解和数据移动的策略。CUTLASS 将这些“可动部件”分解为可重用、模块化的软件组件和抽象。
RainbowC0
2 个月前
gpu
总结各GPU的OpenCL子组洗牌支持情况
子组(Sub-group)自 OpenCL 2.0 正式引入,是工作组(Work-group)内部更小的执行单位,通常直接映射到 GPU 的 SIMD/SIMT 执行单元(如 Nvidia Warp 和 AMD Wavefront),具有更好的数据共享与同步能力。
70asunflower
2 个月前
gpu
·
就业
·
岗位
算子开发到底在做什么?
“算子开发(Operator Kernel Development)”在真实工业环境里,绝对不只是“写一个 conv 的实现”,而是:
迎仔
2 个月前
gpu
B-基础:GPU驱动基础概念
GPU(图形处理器)就像一个超级厨师,专门负责处理复杂的计算任务。而GPU驱动就是这个厨师的工作手册,告诉厨师如何使用厨房里的各种设备,如何高效地完成烹饪任务。在算力中心,GPU驱动的重要性不言而喻,它直接影响着AI训练和推理的效率。
迎仔
2 个月前
gpu
·
gpu驱动
F-排查:GPU驱动故障排查手册
在算力中心的日常运维中,GPU驱动故障是不可避免的。就像人生病需要医生诊断一样,GPU驱动故障也需要系统化的排查方法。本手册将为你提供一套完整的GPU驱动故障排查流程和方法,帮助你快速定位和解决问题。