gpu

Smoothcloud_润云5 天前
人工智能·agent·gpu
Hermes Agent 的上下文记忆机制:一个开源 Agent 是怎么"记住"你的Hermes Agent 是 Nous Research 开源的个人 AI Agent 项目(GitHub:NousResearch/hermes-agent),主打的卖点是"自我进化"——它会从经验中创建 skill、在使用中改进 skill、定期提醒自己沉淀知识,并跨会话构建对用户的理解。这套能力的地基,就是它的记忆与上下文管理系统。
RainbowC010 天前
gpu
CUDA软件实现跨线程块同步笔者的毕设项目与 CUDA 相关,最近需要实现设备端跨线程块同步操作。查阅了相关 API 后发现有一个集群(Cluster)同步操作可用,但是集群需要计算能力 9.0+,而服务器配备 RTX 4090(计算能力 8.9),一些云算力提供 V100(计算能力 7.0)、T4(计算能力 7.5)均不达要求。最终参考了协作组的网格同步函数实现了兼容低计算能力的自定义跨线程块同步。
劈星斩月13 天前
人工智能·gpu
从“画图”到“算数”:GPU如何站上AI时代的C位1999年,NVIDIA推出全球首款GPU——GeForce 256,其初衷仅是让电脑游戏中的3D画面更加逼真。然而,当时无人能料想,这颗为"图形渲染"而生的芯片,竟会蜕变为点燃人工智能革命的超级引擎……
逻极14 天前
人工智能·windows·stm32·自动化·gpu·amd·ollama
Windows 平台 Ollama AMD GPU 一键编译指南:基于 ROCm 7.1 的自动化实战去年我们在 Windows 上编译 Ollama 的 AMD GPU 版本时,需要在 PowerShell 里小心翼翼地把环境变量逐个敲进去,手动搞定 CMake 和 Ninja,稍有不慎就可能因为一个架构参数而前功尽弃。如今,随着 ROCm 7.1 正式支持 RDNA 3.5 架构,社区也打磨出了一套高度自动化的构建脚本——只需一行命令,就能把 Ollama 源码编译成原生调用 AMD GPU 的 Windows 可执行文件。
Luchang-Li16 天前
人工智能·gpu·监控·性能·带宽
GPU传输带宽等信息监控nvidia-smi用于每隔 1 秒监控第 0 张 GPU 的 PCIe 收发带宽,输出的是 NVIDIA GPM(GPU Performance Metrics)中的两个指标:
插件开发17 天前
c++·gpu·cuda
CUDA11-VS2015安装-工具链测试-Helloworld程序下载cuda_11.0.2_451.48_win10,如下图所示:按默认指引安装。这是一个标准的CUDA向量加法示例代码。我来详细分析其结构和关键点:
DigitalOcean17 天前
llm·gpu
微调后的 LLM 如何部署到生产环境?从GPU 推理端点的搭建、测试与上线全流程想象一下这样一个产品团队:他们针对临床病历(Clinical Notes)对一个大语言模型进行了微调。在实验室测试中,提示词和模型生成的回答看起来都棒极了。然而,紧接着有人提出了一个棘手的问题:我们如何在不将受保护健康信息(PHI)暴露给共享公共 API 的前提下,把这个模型安全地接入面向患者的移动应用中?
ALINX技术博客19 天前
linux·qt·fpga开发·gpu
【黑金云课堂】FPGA技术教程Linux开发:摄像头GPU渲染显示/Qt OpenGLES使用💡 完整视频讲解可前往 ALINX 视频号进行直播回看更多细节欢迎关注我们黑金云课堂全年免费直播课, 黑金云课堂六月直播日历 我们将在每周二、三、四,同步推进 Verilog开发、Vitis开发、Linux开发三大系列,带你从零开始,稳扎稳打掌握 FPGA 开发全流程!
模型时代22 天前
gpu·数据中心·立讯精密
GPU之外,立讯精密想吃下AI数据中心的“连接生意“一个容易被忽略的细节,能说明立讯精密现在站在什么位置:截至2026年4月,立讯精密过半的研发投入,都花在还没产生收入的业务上,用来为即将落地的数据中心、连接和散热产品做前期技术储备。也就是说,市场眼下看到的立讯精密AI业务,更多是花出去的钱,还不是收回来的钱。
IC修真院23 天前
gpu·ic设计·芯片·微电子·数字ic·npu
高赞问题:NPU可不可以代替GPU?先说结论:NPU 不能完全代替 GPU,二者是「互补关系」,不是「取代关系」。一句话分清NPU和GPU的定位:
黑暗森林观察者24 天前
gpu
AMD 送了块顶级 GPU 给黑客,他能打穿英伟达 20 年的软件帝国吗?今天(6月5日),AI 圈流传着一则颇具黑客浪漫色彩的新闻:AMD 主动把顶级 AI 加速卡送给了传奇黑客 George Hotz——就是那个 17 岁破解 iPhone、18 岁破解 PS3 的人。
派勤电子25 天前
gpu·fpga·npu·工控机·ai工控机·fpga工控机·工业级工控机
2026 支持 FPGA 工控机 AI 加速应用场景详解虽然 NPU 和 GPU 在 AI 加速方面表现出色,但在一些特殊的应用场景中,FPGA 仍然具有不可替代的优势。FPGA 具有可编程性强、延迟低、并行度高、功耗低等优点,特别适合一些定制化的 AI 加速应用。
archi-dreamer1 个月前
gpu·llvm·编译器与工具链
SlotIndex机制--以AMDGPU为例适用范围:LLVM AMDGPU(GCN/SI+)后端的 Machine IR、LiveIntervals、寄存器分配前优化与调度分析 通用实现:llvm/include/llvm/CodeGen/SlotIndexes.h、llvm/lib/CodeGen/SlotIndexes.cpp、llvm/include/llvm/CodeGen/LiveInterval.h
archi-dreamer1 个月前
gpu·llvm·编译器与工具链
LiveInterval分析–以AMDGPU为例适用范围:LLVM AMDGPU(GCN/SI+)后端的 Machine IR、活跃性分析与寄存器分配
人月神话-Lee1 个月前
图像处理·人工智能·ios·chatgpt·ai编程·swift·gpu
【图像处理】Core Image 与 GPU 渲染管线——让滤镜飞起来CPU 是一位精英工程师,一次专心做一件事; GPU 是一支万人工厂,每条流水线同时处理一块像素。 选对工具,差距可以是 10 倍。
AKAMAI1 个月前
云计算·gpu
针对 Akamai Cloud 上的 NVIDIA RTX Pro 6000 Blackwell 进行基准测试基准测试显示,Akamai Cloud 上运行的 NVIDIA RTX PRO™ 6000 Blackwell 的推理吞吐量最高可达 H100 的 1.63 倍;在 100 个并发请求下,每台服务器的处理能力高达 24,240 TPS。
caodongwang1 个月前
gpu·rdma·gdr
GPU Direct RDMA调研GPUDirect RDMA是GPU direct技术体系的一部分,用于跨机或者跨机柜级别的GPU互联通信的加速。GPUDirect RDMA主要是利用PCIe p2p的技术将GPU的内存暴露给RDMA网络设备进行data transfer,将传统通过系统内存的RDMA操作bypass掉,避免GPU mem和host mem之间的mem copy。
archi-dreamer1 个月前
gpu·llvm·编译器与工具链
AMDGPU后端RegMask使用介绍摘要:本文系统介绍了 LLVM MI 层 RegMask 在 AMDGPU 后端中的核心作用与实现机制。RegMask 作为 MachineOperand 的特殊操作数,通过位图编码描述指令执行后哪些物理寄存器被保留(preserved)而非被破坏(clobbered)。在 AMDGPU 中,RegMask 主要服务于 call 边界上的寄存器活跃性分析和分配约束,其来源是 AMDGPUCallingConv.td 中定义的 calling convention 和 CSR(Callee-Saved Re
fhqlongteng1 个月前
前端·javascript·electron·gpu·rk3576
RK3576上electron调用GPU的功能设置方法这次测试使用的是天启的RK3576开发板,开发板使用debian根文件系统和xfce4的桌面软件,内部chromium浏览器,浏览器的版本是132.0.6843.83。打开浏览器运行chrom://gpu显示如下:
Dfreedom.1 个月前
人工智能·深度学习·gpu·gpu加速·模型加速·算子融合·模型计算
算子融合:从硬件本质到性能飞跃的深度学习优化艺术在深度学习模型部署中,我们经常遇到这样的困境:同样的模型,同样的硬件,为什么推理速度却有天壤之别?一个在GPU上需要20ms的模型,经过优化后可能只需要5ms。这背后的关键优化技术之一就是算子融合。