gpu

探索云原生3 天前
ai·云原生·kubernetes·gpu·vllm
大模型推理指南:使用 vLLM 实现高效推理本文主要分享如何使用 vLLM 实现大模型推理服务。大模型推理有多种方式比如其中,热度最高的应该就是 vLLM,性能好的同时使用也非常简单,本文就分享一下如何使用 vLLM 来启动大模型推理服务。
若石之上6 天前
pytorch·内存·gpu·deepspeed·速度·zero
DeepSpeed:PyTorch优化库,使模型分布式训练能高效使用内存和更快速DeepSpeed是一个PyTorch优化库,它能让大模型的分布式训练更加节省内存和更快速。它的核心是ZeRO,ZeRO让大规模的训练大模型成为可能。ZeRO有以下几个工作状态:
qiang426 天前
pycharm·gpu·autodl·租显卡
想租用显卡训练自己的网络?AutoDL保姆级使用教程(PyCharm版)各位小伙伴们大家好~ 不知道各位同学在科研过程中是否有这样的苦恼那么今天,小编给大家带来了显卡租用的教程,真心好用,可以有效解决你的“算力难题” 他就是,国内云算力的天花板,AutoDL!!!
扫地的小何尚9 天前
人工智能·aigc·llama·gpu·nvidia·cuda·英伟达
NVIDIA RTX 系统上使用 llama.cpp 加速 LLM适用于 Windows PC 的 NVIDIA RTX AI 平台提供了一个蓬勃发展的生态系统,其中包含数千种开源模型,供应用程序开发人员利用并集成到 Windows 应用程序中。值得注意的是,llama.cpp 是一款流行的工具,在撰写本文时拥有超过 65,000 个 GitHub 星标。这个开源存储库最初于 2023 年发布,是一个轻量级、高效的大型语言模型 (LLM) 推理框架,可在包括 RTX PC 在内的一系列硬件平台上运行。
藓类少女9 天前
人工智能·深度学习·分布式训练·gpu
【深度学习】使用硬件加速模型训练速度PyTorch 示例:dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4, pin_memory=True)
centurysee11 天前
gpu·nvidia
【一文搞懂】GPU硬件拓扑与传输速度今天查询华为昇腾算力卡的时候发现了一个非常好的博客,讲述了英伟达GPU与华为NPU的一些基础概念,特分享如下。
探索云原生17 天前
ai·云原生·kubernetes·go·gpu
GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU本文主要分享在不同环境,例如裸机、Docker 和 Kubernetes 等环境中如何使用 GPU。跳转阅读原文:GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU
一个处女座的程序猿17 天前
人工智能·gpu
AI之硬件对比:据传英伟达Nvidia2025年将推出RTX 5090-32GB/RTX 5080-24GB、华为2025年推出910C/910DAI之硬件对比:据传英伟达Nvidia2025年将推出RTX 5090-32GB/RTX 5080-24GB、华为2025年推出910C/910D
GPUStack20 天前
ai·大模型·gpu·npu·genai
在昇腾Ascend 910B上运行Qwen2.5推理目前在国产 AI 芯片,例如昇腾 NPU 上运行大模型是一项广泛且迫切的需求,然而当前的生态还远未成熟。从底层芯片的算力性能、计算架构的算子优化,到上层推理框架对各种模型的支持及推理加速,仍有很多需要完善的地方。
cooldream20091 个月前
idea·gpu·jetbrains·jcef
JetBrains IDE中GPU进程(JCEF)重启问题(Too many restarts of GPU-process)解决方案在使用JetBrains系列IDE(如IntelliJ IDEA、PyCharm、WebStorm等)时,用户可能会遇到“GPU进程(JCEF)重启次数过多”的报错信息。该问题主要表现为IDE频繁闪退、卡顿,甚至无法正常启动。这种现象的主要原因是系统GPU进程不稳定或与JCEF(JetBrains Chromium Embedded Framework)组件存在兼容性问题。本文将深入分析该问题的原因,并提供具体的解决方案与优化建议,以便用户能够顺利使用JetBrains IDE进行开发。
强哥之神1 个月前
人工智能·机器学习·语言模型·gpu·dockerfile·1024程序员节·llamafile
如何构建一个支持GPU的Llamafile容器用CPU玩那些大型的语言模型确实挺有意思的,但看着电脑一个字一个字地慢慢显示结果,那股兴奋劲儿很快就过去了。让这些语言模型软件在GPU上跑起来可能会有点麻烦,因为这得看你的系统和硬件支不支持。我这篇文章就是想告诉你,怎么在你的NVIDIA RTX 2060上跑起来llamafile这个软件。里面的例子会用到llamafile、NVIDIA CUDA、Ubuntu 22.04操作系统还有Docker这几个工具。
木亦汐丫1 个月前
gpu·同态加密·elgamal·paillier·ou·intel qat·heu
【隐私计算】隐语HEU同态加密算法解读HEU: 一个高性能的同态加密算法库,提供了多种 PHE 算法,包括ZPaillier、FPaillier、IPCL、Damgard Jurik、DGK、OU、EC ElGamal 以及基于FPGA和GPU硬件加速版本的Paillier版本。
算家云1 个月前
人工智能·aigc·gpu·图像生成·hugging face·3d模型生成·comfyui、
stable-zero123模型构建指南stabilityai出品,能够对有简单背景的物体进行三维视角图片的生成,简单来说也就是通过调整变换观察的视角生成对应视角的图片。
夜洛IT后端技术分享1 个月前
k8s·gpu
如何在kubernetes环境中共享GPU随着人工智能和大模型的快速发展,云上GPU资源共享变得必要,因为它可以降低硬件成本,提升资源利用效率,并满足模型训练和推理对大规模并行计算的需求。
leboop-L1 个月前
pytorch·深度学习·gpu·cuda·windows11·cudnn
Windows11安装CUDA、cuDNN、PyTorch详解目录CUDA查看CUDA下载CUDA安装cuDNN安装PyTorch安装复现环境:首先我们需要看一下操作系统是否支持GPU。打开任务管理器,点击性能,如图:
Hi202402172 个月前
gpu·cuda·gpgpu
CUDA cooperative_groups grid_group测试CUDA Cooperative Groups是CUDA编程模型中引入的一组高级特性,提供了更灵活的线程组织和同步机制 通过Cooperative Groups,开发者可以在不同层次上组织线程,并执行更高效的并行操作 grid_group.sync 可用于整个grid同步
Hi202402172 个月前
性能优化·gpu·cuda·性能分析
Tesla T4 P2P测试Tesla T4 P2P测试
穷人小水滴2 个月前
开发语言·windows·rust·gpu·窗口·vulkan
Windows (rust) vulkan 画一个三角形: 窗口创建与渲染初始化在每个平台, 每前进一步, 都会出现许多预料之外的困难 (大坑).本文介绍在 Windows 操作系统之中, 使用 win32 API 创建窗口, 并使用 vulkano (rust) 初始化 vulkan, 绘制一个三角形.
竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。2 个月前
gpu
GPU参数指标以英伟达的A800卡为例,简单聊聊GPU卡的核心参数指标,A800的核心指标主要有5个,为算力、显存大小、显存带宽、功耗情况和卡间互联速率。