gpu

摩尔线程4 天前
算法·语言模型·大模型·gpu算力·gpu·摩尔线程
推测解码算法在 MTT GPU 的应用实践目前主流的大模型自回归解码每一步都只生成一个token, 尽管kv cache等技术可以提升解码的效率,但是单个样本的解码速度依然受限于访存瓶颈,即模型需要频繁从内存中读取和写入数据,此时GPU的利用率有限。为了解决这种问题,VLLM框架中提出的continues batching的推理方式则是充分利用批量推理来缓解或避免访存瓶颈,极大的提升了推理系统的吞吐量。不同于VLLM等框架在系统层面的加速优化,本文所想要介绍的推测解码(speculative decoding)技术则是聚焦于算法层面的加速优化,其
weixin_4284984912 天前
gpu
Thrust库中的Gather和Scatter操作Thrust是CUDA提供的一个类似于C++ STL的并行算法库,其中包含两个重要的数据操作:gather(聚集)和scatter(散开)。
倔强的石头10614 天前
ai·大模型·gpu
大模型微调实战:基于GpuGeek平台的低成本高效训练方案大模型微调(Fine-tuning)已成为垂直领域AI应用落地的核心技术,但在实际工程中,开发者常面临显存不足、环境配置复杂、算力成本高昂等问题。 本文以开源大模型Llama-2-13B和ChatGLM3-6B为例,结合GpuGeek平台的优势,系统性讲解从数据预处理到分布式训练的全流程实战方案,并对比本地训练与云平台的效率差异。通过代码示例与优化技巧,展现如何利用云平台特性实现训练时间缩短50%、显存占用降低60%的高效训练。
探索云原生16 天前
ai·云原生·kubernetes·gpu
一文搞懂 GPU 共享方案: NVIDIA Time Slicing本文主要分享 GPU 共享方案,包括如何安装、配置以及使用,最后通过分析源码了 TImeSlicing 的具体实现。通过配置 TImeSlicing 可以实现 Pod 共享一块物理 GPU,以提升资源利用率。
几米哥1 个月前
google·llm·gpu
消费级GPU的AI逆袭:Gemma 3 QAT模型完整部署与应用指南随着大型语言模型(LLM)的快速发展,其应用范围不断扩大,但高昂的硬件需求一直是限制普通用户和开发者使用这些强大模型的主要障碍。谷歌最近推出的Gemma 3系列模型及其量化感知训练(QAT)版本,正是为解决这一问题而生。本文将详细介绍Gemma 3 QAT模型如何在大幅降低内存需求的同时保持卓越性能,使仅有8GB VRAM的消费级GPU(如RTX 4060)也能运行先进的AI模型,并探讨如何通过Ollama、LM Studio和AnythingLLM等工具构建完整的本地AI解决方案。
BW.SU1 个月前
单片机·嵌入式硬件·gpu·ra8889·ra6809·液晶控制芯片·图形处理芯片
单片机 + 图像处理芯片 + TFT彩屏 复选框控件本复选框控件是一个适用于单片机图形界面的UI组件,基于单片机 + RA8889/RA6809 + TFT显示屏 + GT911触摸屏开发。控件提供了丰富的功能和自定义选项,使用简单方便,易于移植。
红尘散仙1 个月前
前端·rust·gpu
七、WebGPU 基础入门——Texture 纹理之前,我们探讨了用于向着色器传递数据的关键数据类型GPUBuffer,这其中包括了UniformBuffer、StorageBuffer以及VertexBuffer等。今天我们将介绍向着色器传递数据的另一种主要方式——纹理(Texture)。由于作者精力有限,且网络上关于typescript 的代码案例比较多,所以后面的章节代码实践部分只用rust 编写。
红尘散仙1 个月前
前端·rust·gpu
八、WebGPU 基础入门——加载图像纹理本节将介绍如何加载图像纹理到 WebGPU 中,并在屏幕上绘制出来。我们将使用 image crate 来加载图像文件,并将其转换为 WebGPU 可用的纹理格式。本节会使用egui 来实现一个简单的 UI 界面。如何集成egui,请参考kaphula/winit-egui-wgpu-template。
红尘散仙1 个月前
前端·rust·gpu
六、WebGPU 基础入门——Vertex 缓冲区和 Index 缓冲区WebGPU中的顶点缓冲区是存储顶点数据(如位置、颜色、纹理坐标等)的GPU显存区域,用于向顶点着色器提供几何图形渲染所需的数据。 本节将介绍如何创建和使用顶点缓冲区。
红尘散仙1 个月前
前端·rust·gpu
四、WebGPU 基础入门——Uniform 缓冲区与内存对齐上一节,我们通过 WebGPU 创建了一个简单的三角形,并渲染到屏幕上。这节我们将学习如何使用 Uniform 缓冲区传递数据到着色器中。
TYYJ-洪伟1 个月前
音视频·gpu·vulkan·图像渲染
【Vulkan 入门系列】创建帧缓冲、命令池、命令缓存,和获取图片(六)这一节主要介绍创建帧缓冲(Framebuffer),创建命令池,创建命令缓存,和从文件加载 PNG 图像数据,解码为 RGBA 格式,并将像素数据暂存到 Vulkan 的 暂存缓冲区中。
非典型程序猿1 个月前
gpu·音视频开发
【Vulkan 入门系列】创建交换链、图像视图和渲染通道(四)文章首发微信公众号:非典型程序猿,欢迎关注mp.weixin.qq.com/s/tB-pdrVzF…Vulkan 没有“默认帧缓冲”的概念,因此它需要一个基础设施来拥有我们将要渲染的缓冲,然后我们才能在屏幕上可视化它们。这个基础设施被称为交换链,必须在 Vulkan 中显式创建。交换链本质上是一个等待呈现到屏幕的图像队列。我们的应用程序将获取这样的图像来绘制它,然后将其返回到队列。队列的确切工作方式以及从队列中呈现图像的条件取决于交换链的设置方式,但交换链的总体目的是将图像的呈现与屏幕的刷新率同步。
落樱弥城1 个月前
人工智能·ai·gpu·nvidia·gpgpu
Nvidia显卡架构演进显示卡(英语:Display Card)简称显卡,也称图形卡(Graphics Card),是个人电脑上以图形处理器(GPU)为核心的扩展卡,用途是提供中央处理器以外的微处理器帮助计算图像信息,并将计算机系统所需要的显示信息进行转换并提供逐行或隔行扫描信号给显示设备,是连接显示器和个人电脑主板的重要组件,是“人机交互”的重要设备之一。显卡有时被称为独立显卡或专用显卡,以强调它们与主板上的集成图形处理器(集成显卡)或中央处理器 (CPU) 的区别。   早期显卡主要用来进行图像显示,其主要应用场景为游戏渲染
非典型程序猿1 个月前
gpu·音视频开发
【Vulkan 入门系列】创建描述符集布局和图形管线(五)文章首发微信公众号:非典型程序猿,欢迎关注mp.weixin.qq.com/s/F4Ht2T_PU…描述符集布局定义了着色器如何访问资源(如缓冲区和图像),是渲染管线配置的关键部分。图形管线定义了从顶点数据到最终像素输出的整个处理流程,包括可编程阶段(如顶点和片段着色器)和固定功能阶段(如光栅化、深度测试)。
讲究事1 个月前
rust·gpu
Built-in functionsshader-learning.com/module-view…fragment 着色器需要返回vec4f的向量作为颜色,-> @location(0) vec4<f32>表示返回的颜色存储在@location(0)的公共位置上
非典型程序猿1 个月前
gpu·音视频开发
【Vulkan 入门系列】创建 Vulkan 实例、Surface 和选择物理设备(二)文章首发微信公众号:非典型程序猿,欢迎关注mp.weixin.qq.com/s/rq_gnQKiJ…使用 Vulkan API 的第一步是先创建它的实例,并搭建 Surface 和创建逻辑设备。我们通过学习 Android Hello VK Demo 来一步步熟悉 Vulkan API。
XuanXu2 个月前
性能优化·gpu
CUDA&OpenCL并行编程大家都知道AI现在很火,为什么AI需要用显卡来跑呢,NVIDIA为啥赚的盆满钵满。最近我就去稍微研究了一下并行计算。AI计算本质上就是一大堆矩阵运算,而矩阵运算天生就适合使用并行计算进行优化。
杰克逊的日记2 个月前
人工智能·ai·gpu·ai集群·pytorach
AI集群设计以下是一个简单的 Kubernetes 配置文件示例,用于在集群中运行一个基于 TensorFlow 的训练任务:
mortimer2 个月前
github·gpu·nvidia
5090 装机后无法使用 GPU 加速?别急,这里有解决办法!很多喜欢本地部署 AI 项目的朋友,总是追着英伟达最新显卡跑。RTX 4090 刚出时,迫不及待换上,体验飞一般的算力。RTX 5090 发布后,又是一波抢购热潮。然而,装上 5090 后,悲剧出现了:程序跑不动 GPU 加速,速度慢得像乌龟,甚至直接报错崩溃,连启动都成问题!
deephub2 个月前
人工智能·深度学习·gpu·计算加速
计算加速技术比较分析:GPU、FPGA、ASIC、TPU与NPU的技术特性、应用场景及产业生态在计算技术快速迭代的今天,传统通用处理器(CPU)正逐步被专用硬件加速器补充或替代,尤其在特定计算领域。这些加速器通过针对性设计,在功耗效率、计算吞吐量(FLOPS)和内存带宽方面实现了显著优化。截至2025年4月,加速器市场需求呈指数级增长,主要驱动因素来自人工智能(AI)、机器学习(ML)、高性能计算(HPC)及边缘计算应用的广泛部署。本文将深入剖析五类主要计算加速器——GPU、FPGA、ASIC、TPU和NPU,从技术架构、性能特点、应用领域到产业生态进行系统化比较,并分析在不同应用场景下各类加速器