gpu

weiwei228442 天前
gpu·vs2019·cuda
VS2019+CUDA12.5入门通常先装vs后装cuda,cuda会自动集成到vs中。而如果先装cuda,后装vs则需要进行额外的配置。
扫地的小何尚4 天前
c++·人工智能·语言模型·机器人·ocr·llama·gpu
全新NVIDIA Llama Nemotron Nano视觉语言模型在OCR基准测试中准确率夺冠PDF、图表、图形和仪表板等文档是丰富的数据源,当这些数据被提取和整理后,能够为决策制定提供有价值的洞察。从自动化财务报表处理到改进商业智能工作流程,智能文档处理正在成为企业AI解决方案的核心组件。
nuczzz9 天前
docker·kubernetes·k8s·gpu·nvidia
GPU虚拟化现有如下环境(注意相关配置:只有一个k8s节点,且该节点上只有一张GPU卡):在上述单节点的k8s环境中,我先用如下配置了使用GPU的yaml起一个pod:
扫地的小何尚11 天前
人工智能·分布式·microsoft·链表·语言模型·gpu
NVIDIA Dynamo:数据中心规模的分布式推理服务框架深度解析NVIDIA Dynamo是一个革命性的高吞吐量、低延迟推理框架,专为在多节点分布式环境中服务生成式AI和推理模型而设计。本文将深入分析Dynamo的架构设计、核心特性、代码实现以及实际应用示例,为读者提供全面的技术指南。
探索云原生12 天前
ai·云原生·kubernetes·gpu
开源 vGPU 方案:HAMi,实现细粒度 GPU 切分本文主要分享一个开源的 GPU 虚拟化方案:HAMi,包括如何安装、配置以及使用。 相比于上一篇分享的 TimeSlicing 方案,HAMi 除了 GPU 共享之外还可以实现 GPU core、memory 得限制,保证共享同一 GPU 的各个 Pod 都能拿到足够的资源。
r0ysue_13 天前
算法·gpu
02.上帝之心算法用GPU计算提速50倍曼德勃罗特集是一个几何图形,曾被称为“上帝的指纹”。只要计算的点足够多,不管把图案放大多少倍,都能显示出更加复杂的局部,这些局部既与整体不同,又有某种相似的地方。
爱串门的小马驹16 天前
vscode·gpu·cuda
VScode编译调试debug,gpu的cuda程序,Nsight进行下面操作的前提是,我们的环境已经能跑简单的CUDA程序了。注意:名称一定是main.cu,和上面的json文件中的main对应。
摩尔线程25 天前
算法·语言模型·大模型·gpu算力·gpu·摩尔线程
推测解码算法在 MTT GPU 的应用实践目前主流的大模型自回归解码每一步都只生成一个token, 尽管kv cache等技术可以提升解码的效率,但是单个样本的解码速度依然受限于访存瓶颈,即模型需要频繁从内存中读取和写入数据,此时GPU的利用率有限。为了解决这种问题,VLLM框架中提出的continues batching的推理方式则是充分利用批量推理来缓解或避免访存瓶颈,极大的提升了推理系统的吞吐量。不同于VLLM等框架在系统层面的加速优化,本文所想要介绍的推测解码(speculative decoding)技术则是聚焦于算法层面的加速优化,其
weixin_428498491 个月前
gpu
Thrust库中的Gather和Scatter操作Thrust是CUDA提供的一个类似于C++ STL的并行算法库,其中包含两个重要的数据操作:gather(聚集)和scatter(散开)。
倔强的石头1061 个月前
ai·大模型·gpu
大模型微调实战:基于GpuGeek平台的低成本高效训练方案大模型微调(Fine-tuning)已成为垂直领域AI应用落地的核心技术,但在实际工程中,开发者常面临显存不足、环境配置复杂、算力成本高昂等问题。 本文以开源大模型Llama-2-13B和ChatGLM3-6B为例,结合GpuGeek平台的优势,系统性讲解从数据预处理到分布式训练的全流程实战方案,并对比本地训练与云平台的效率差异。通过代码示例与优化技巧,展现如何利用云平台特性实现训练时间缩短50%、显存占用降低60%的高效训练。
探索云原生1 个月前
ai·云原生·kubernetes·gpu
一文搞懂 GPU 共享方案: NVIDIA Time Slicing本文主要分享 GPU 共享方案,包括如何安装、配置以及使用,最后通过分析源码了 TImeSlicing 的具体实现。通过配置 TImeSlicing 可以实现 Pod 共享一块物理 GPU,以提升资源利用率。
几米哥2 个月前
google·llm·gpu
消费级GPU的AI逆袭:Gemma 3 QAT模型完整部署与应用指南随着大型语言模型(LLM)的快速发展,其应用范围不断扩大,但高昂的硬件需求一直是限制普通用户和开发者使用这些强大模型的主要障碍。谷歌最近推出的Gemma 3系列模型及其量化感知训练(QAT)版本,正是为解决这一问题而生。本文将详细介绍Gemma 3 QAT模型如何在大幅降低内存需求的同时保持卓越性能,使仅有8GB VRAM的消费级GPU(如RTX 4060)也能运行先进的AI模型,并探讨如何通过Ollama、LM Studio和AnythingLLM等工具构建完整的本地AI解决方案。
BW.SU2 个月前
单片机·嵌入式硬件·gpu·ra8889·ra6809·液晶控制芯片·图形处理芯片
单片机 + 图像处理芯片 + TFT彩屏 复选框控件本复选框控件是一个适用于单片机图形界面的UI组件,基于单片机 + RA8889/RA6809 + TFT显示屏 + GT911触摸屏开发。控件提供了丰富的功能和自定义选项,使用简单方便,易于移植。
红尘散仙2 个月前
前端·rust·gpu
七、WebGPU 基础入门——Texture 纹理之前,我们探讨了用于向着色器传递数据的关键数据类型GPUBuffer,这其中包括了UniformBuffer、StorageBuffer以及VertexBuffer等。今天我们将介绍向着色器传递数据的另一种主要方式——纹理(Texture)。由于作者精力有限,且网络上关于typescript 的代码案例比较多,所以后面的章节代码实践部分只用rust 编写。
红尘散仙2 个月前
前端·rust·gpu
八、WebGPU 基础入门——加载图像纹理本节将介绍如何加载图像纹理到 WebGPU 中,并在屏幕上绘制出来。我们将使用 image crate 来加载图像文件,并将其转换为 WebGPU 可用的纹理格式。本节会使用egui 来实现一个简单的 UI 界面。如何集成egui,请参考kaphula/winit-egui-wgpu-template。
红尘散仙2 个月前
前端·rust·gpu
六、WebGPU 基础入门——Vertex 缓冲区和 Index 缓冲区WebGPU中的顶点缓冲区是存储顶点数据(如位置、颜色、纹理坐标等)的GPU显存区域,用于向顶点着色器提供几何图形渲染所需的数据。 本节将介绍如何创建和使用顶点缓冲区。
红尘散仙2 个月前
前端·rust·gpu
四、WebGPU 基础入门——Uniform 缓冲区与内存对齐上一节,我们通过 WebGPU 创建了一个简单的三角形,并渲染到屏幕上。这节我们将学习如何使用 Uniform 缓冲区传递数据到着色器中。
TYYJ-洪伟2 个月前
音视频·gpu·vulkan·图像渲染
【Vulkan 入门系列】创建帧缓冲、命令池、命令缓存,和获取图片(六)这一节主要介绍创建帧缓冲(Framebuffer),创建命令池,创建命令缓存,和从文件加载 PNG 图像数据,解码为 RGBA 格式,并将像素数据暂存到 Vulkan 的 暂存缓冲区中。
非典型程序猿2 个月前
gpu·音视频开发
【Vulkan 入门系列】创建交换链、图像视图和渲染通道(四)文章首发微信公众号:非典型程序猿,欢迎关注mp.weixin.qq.com/s/tB-pdrVzF…Vulkan 没有“默认帧缓冲”的概念,因此它需要一个基础设施来拥有我们将要渲染的缓冲,然后我们才能在屏幕上可视化它们。这个基础设施被称为交换链,必须在 Vulkan 中显式创建。交换链本质上是一个等待呈现到屏幕的图像队列。我们的应用程序将获取这样的图像来绘制它,然后将其返回到队列。队列的确切工作方式以及从队列中呈现图像的条件取决于交换链的设置方式,但交换链的总体目的是将图像的呈现与屏幕的刷新率同步。
落樱弥城2 个月前
人工智能·ai·gpu·nvidia·gpgpu
Nvidia显卡架构演进显示卡(英语:Display Card)简称显卡,也称图形卡(Graphics Card),是个人电脑上以图形处理器(GPU)为核心的扩展卡,用途是提供中央处理器以外的微处理器帮助计算图像信息,并将计算机系统所需要的显示信息进行转换并提供逐行或隔行扫描信号给显示设备,是连接显示器和个人电脑主板的重要组件,是“人机交互”的重要设备之一。显卡有时被称为独立显卡或专用显卡,以强调它们与主板上的集成图形处理器(集成显卡)或中央处理器 (CPU) 的区别。   早期显卡主要用来进行图像显示,其主要应用场景为游戏渲染