gpu

几米哥7 天前
google·llm·gpu
消费级GPU的AI逆袭:Gemma 3 QAT模型完整部署与应用指南随着大型语言模型(LLM)的快速发展,其应用范围不断扩大,但高昂的硬件需求一直是限制普通用户和开发者使用这些强大模型的主要障碍。谷歌最近推出的Gemma 3系列模型及其量化感知训练(QAT)版本,正是为解决这一问题而生。本文将详细介绍Gemma 3 QAT模型如何在大幅降低内存需求的同时保持卓越性能,使仅有8GB VRAM的消费级GPU(如RTX 4060)也能运行先进的AI模型,并探讨如何通过Ollama、LM Studio和AnythingLLM等工具构建完整的本地AI解决方案。
BW.SU9 天前
单片机·嵌入式硬件·gpu·ra8889·ra6809·液晶控制芯片·图形处理芯片
单片机 + 图像处理芯片 + TFT彩屏 复选框控件本复选框控件是一个适用于单片机图形界面的UI组件,基于单片机 + RA8889/RA6809 + TFT显示屏 + GT911触摸屏开发。控件提供了丰富的功能和自定义选项,使用简单方便,易于移植。
红尘散仙11 天前
前端·rust·gpu
七、WebGPU 基础入门——Texture 纹理之前,我们探讨了用于向着色器传递数据的关键数据类型GPUBuffer,这其中包括了UniformBuffer、StorageBuffer以及VertexBuffer等。今天我们将介绍向着色器传递数据的另一种主要方式——纹理(Texture)。由于作者精力有限,且网络上关于typescript 的代码案例比较多,所以后面的章节代码实践部分只用rust 编写。
红尘散仙11 天前
前端·rust·gpu
八、WebGPU 基础入门——加载图像纹理本节将介绍如何加载图像纹理到 WebGPU 中,并在屏幕上绘制出来。我们将使用 image crate 来加载图像文件,并将其转换为 WebGPU 可用的纹理格式。本节会使用egui 来实现一个简单的 UI 界面。如何集成egui,请参考kaphula/winit-egui-wgpu-template。
红尘散仙11 天前
前端·rust·gpu
六、WebGPU 基础入门——Vertex 缓冲区和 Index 缓冲区WebGPU中的顶点缓冲区是存储顶点数据(如位置、颜色、纹理坐标等)的GPU显存区域,用于向顶点着色器提供几何图形渲染所需的数据。 本节将介绍如何创建和使用顶点缓冲区。
红尘散仙11 天前
前端·rust·gpu
四、WebGPU 基础入门——Uniform 缓冲区与内存对齐上一节,我们通过 WebGPU 创建了一个简单的三角形,并渲染到屏幕上。这节我们将学习如何使用 Uniform 缓冲区传递数据到着色器中。
TYYJ-洪伟13 天前
音视频·gpu·vulkan·图像渲染
【Vulkan 入门系列】创建帧缓冲、命令池、命令缓存,和获取图片(六)这一节主要介绍创建帧缓冲(Framebuffer),创建命令池,创建命令缓存,和从文件加载 PNG 图像数据,解码为 RGBA 格式,并将像素数据暂存到 Vulkan 的 暂存缓冲区中。
非典型程序猿16 天前
gpu·音视频开发
【Vulkan 入门系列】创建交换链、图像视图和渲染通道(四)文章首发微信公众号:非典型程序猿,欢迎关注mp.weixin.qq.com/s/tB-pdrVzF…Vulkan 没有“默认帧缓冲”的概念,因此它需要一个基础设施来拥有我们将要渲染的缓冲,然后我们才能在屏幕上可视化它们。这个基础设施被称为交换链,必须在 Vulkan 中显式创建。交换链本质上是一个等待呈现到屏幕的图像队列。我们的应用程序将获取这样的图像来绘制它,然后将其返回到队列。队列的确切工作方式以及从队列中呈现图像的条件取决于交换链的设置方式,但交换链的总体目的是将图像的呈现与屏幕的刷新率同步。
落樱弥城16 天前
人工智能·ai·gpu·nvidia·gpgpu
Nvidia显卡架构演进显示卡(英语:Display Card)简称显卡,也称图形卡(Graphics Card),是个人电脑上以图形处理器(GPU)为核心的扩展卡,用途是提供中央处理器以外的微处理器帮助计算图像信息,并将计算机系统所需要的显示信息进行转换并提供逐行或隔行扫描信号给显示设备,是连接显示器和个人电脑主板的重要组件,是“人机交互”的重要设备之一。显卡有时被称为独立显卡或专用显卡,以强调它们与主板上的集成图形处理器(集成显卡)或中央处理器 (CPU) 的区别。   早期显卡主要用来进行图像显示,其主要应用场景为游戏渲染
非典型程序猿17 天前
gpu·音视频开发
【Vulkan 入门系列】创建描述符集布局和图形管线(五)文章首发微信公众号:非典型程序猿,欢迎关注mp.weixin.qq.com/s/F4Ht2T_PU…描述符集布局定义了着色器如何访问资源(如缓冲区和图像),是渲染管线配置的关键部分。图形管线定义了从顶点数据到最终像素输出的整个处理流程,包括可编程阶段(如顶点和片段着色器)和固定功能阶段(如光栅化、深度测试)。
讲究事19 天前
rust·gpu
Built-in functionsshader-learning.com/module-view…fragment 着色器需要返回vec4f的向量作为颜色,-> @location(0) vec4<f32>表示返回的颜色存储在@location(0)的公共位置上
非典型程序猿21 天前
gpu·音视频开发
【Vulkan 入门系列】创建 Vulkan 实例、Surface 和选择物理设备(二)文章首发微信公众号:非典型程序猿,欢迎关注mp.weixin.qq.com/s/rq_gnQKiJ…使用 Vulkan API 的第一步是先创建它的实例,并搭建 Surface 和创建逻辑设备。我们通过学习 Android Hello VK Demo 来一步步熟悉 Vulkan API。
XuanXu25 天前
性能优化·gpu
CUDA&OpenCL并行编程大家都知道AI现在很火,为什么AI需要用显卡来跑呢,NVIDIA为啥赚的盆满钵满。最近我就去稍微研究了一下并行计算。AI计算本质上就是一大堆矩阵运算,而矩阵运算天生就适合使用并行计算进行优化。
杰克逊的日记25 天前
人工智能·ai·gpu·ai集群·pytorach
AI集群设计以下是一个简单的 Kubernetes 配置文件示例,用于在集群中运行一个基于 TensorFlow 的训练任务:
mortimer1 个月前
github·gpu·nvidia
5090 装机后无法使用 GPU 加速?别急,这里有解决办法!很多喜欢本地部署 AI 项目的朋友,总是追着英伟达最新显卡跑。RTX 4090 刚出时,迫不及待换上,体验飞一般的算力。RTX 5090 发布后,又是一波抢购热潮。然而,装上 5090 后,悲剧出现了:程序跑不动 GPU 加速,速度慢得像乌龟,甚至直接报错崩溃,连启动都成问题!
deephub1 个月前
人工智能·深度学习·gpu·计算加速
计算加速技术比较分析:GPU、FPGA、ASIC、TPU与NPU的技术特性、应用场景及产业生态在计算技术快速迭代的今天,传统通用处理器(CPU)正逐步被专用硬件加速器补充或替代,尤其在特定计算领域。这些加速器通过针对性设计,在功耗效率、计算吞吐量(FLOPS)和内存带宽方面实现了显著优化。截至2025年4月,加速器市场需求呈指数级增长,主要驱动因素来自人工智能(AI)、机器学习(ML)、高性能计算(HPC)及边缘计算应用的广泛部署。本文将深入剖析五类主要计算加速器——GPU、FPGA、ASIC、TPU和NPU,从技术架构、性能特点、应用领域到产业生态进行系统化比较,并分析在不同应用场景下各类加速器
扫地的小何尚1 个月前
android·java·c++·链表·语言模型·机器人·gpu
NVIDIA工业设施数字孪生中的机器人模拟数字孪生是真实物理对象或系统的虚拟复制品,它能够在虚拟环境中模拟真实世界的行为和性能。在工业自动化领域,数字孪生特别有价值,因为它们允许工程师:
ak啊1 个月前
pytorch·python·gpu
PyTorch框架-Python GPU编程CUDA out of memory:设备不匹配错误:性能优化:通过这个教程,您应该能够: ✅ 配置Python GPU开发环境 ✅ 进行基础的GPU张量操作 ✅ 实现GPU加速的神经网络训练 ✅ 处理常见的GPU使用问题
扫地的小何尚1 个月前
人工智能·算法·微服务·ai·架构·gpu
NVIDIA cuOpt:GPU加速优化AI微服务详解在当今数据驱动的世界中,优化问题无处不在,从物流配送路线规划到资源分配,从生产调度到投资组合优化。然而,随着问题规模的增长,传统的CPU求解器往往面临计算效率低下、求解时间长、精度不足等挑战。NVIDIA推出的cuOpt正是为了解决这些挑战而设计的GPU加速优化AI微服务。
量子位1 个月前
人工智能·gpu
蚂蚁国产 GPU 训练大模型细节曝光!Ling 模型研发负责人回应:关于我们抠 FLOPS 的一些点滴蚂蚁开源大模型的低成本训练细节,疑似曝光!这段时间,蚂蚁一篇技术论文引发关注。论文中显示,他们推出的两款 MoE 大模型,能够在国产 GPU 上完成与英伟达同效的训练。一时间,该消息在技术圈发酵,登上了热搜,甚至还传出「计算成本低于 DeepSeek」一些传闻。