技术栈
gpu
探索云原生
3 天前
ai
·
云原生
·
kubernetes
·
gpu
·
vllm
大模型推理指南:使用 vLLM 实现高效推理
本文主要分享如何使用 vLLM 实现大模型推理服务。大模型推理有多种方式比如其中,热度最高的应该就是 vLLM,性能好的同时使用也非常简单,本文就分享一下如何使用 vLLM 来启动大模型推理服务。
若石之上
6 天前
pytorch
·
内存
·
gpu
·
deepspeed
·
速度
·
zero
DeepSpeed:PyTorch优化库,使模型分布式训练能高效使用内存和更快速
DeepSpeed是一个PyTorch优化库,它能让大模型的分布式训练更加节省内存和更快速。它的核心是ZeRO,ZeRO让大规模的训练大模型成为可能。ZeRO有以下几个工作状态:
qiang42
6 天前
pycharm
·
gpu
·
autodl
·
租显卡
想租用显卡训练自己的网络?AutoDL保姆级使用教程(PyCharm版)
各位小伙伴们大家好~ 不知道各位同学在科研过程中是否有这样的苦恼那么今天,小编给大家带来了显卡租用的教程,真心好用,可以有效解决你的“算力难题” 他就是,国内云算力的天花板,AutoDL!!!
扫地的小何尚
9 天前
人工智能
·
aigc
·
llama
·
gpu
·
nvidia
·
cuda
·
英伟达
NVIDIA RTX 系统上使用 llama.cpp 加速 LLM
适用于 Windows PC 的 NVIDIA RTX AI 平台提供了一个蓬勃发展的生态系统,其中包含数千种开源模型,供应用程序开发人员利用并集成到 Windows 应用程序中。值得注意的是,llama.cpp 是一款流行的工具,在撰写本文时拥有超过 65,000 个 GitHub 星标。这个开源存储库最初于 2023 年发布,是一个轻量级、高效的大型语言模型 (LLM) 推理框架,可在包括 RTX PC 在内的一系列硬件平台上运行。
藓类少女
9 天前
人工智能
·
深度学习
·
分布式训练
·
gpu
【深度学习】使用硬件加速模型训练速度
PyTorch 示例:dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4, pin_memory=True)
centurysee
11 天前
gpu
·
nvidia
【一文搞懂】GPU硬件拓扑与传输速度
今天查询华为昇腾算力卡的时候发现了一个非常好的博客,讲述了英伟达GPU与华为NPU的一些基础概念,特分享如下。
探索云原生
17 天前
ai
·
云原生
·
kubernetes
·
go
·
gpu
GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU
本文主要分享在不同环境,例如裸机、Docker 和 Kubernetes 等环境中如何使用 GPU。跳转阅读原文:GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU
一个处女座的程序猿
17 天前
人工智能
·
gpu
AI之硬件对比:据传英伟达Nvidia2025年将推出RTX 5090-32GB/RTX 5080-24GB、华为2025年推出910C/910D
AI之硬件对比:据传英伟达Nvidia2025年将推出RTX 5090-32GB/RTX 5080-24GB、华为2025年推出910C/910D
GPUStack
20 天前
ai
·
大模型
·
gpu
·
npu
·
genai
在昇腾Ascend 910B上运行Qwen2.5推理
目前在国产 AI 芯片,例如昇腾 NPU 上运行大模型是一项广泛且迫切的需求,然而当前的生态还远未成熟。从底层芯片的算力性能、计算架构的算子优化,到上层推理框架对各种模型的支持及推理加速,仍有很多需要完善的地方。
cooldream2009
1 个月前
idea
·
gpu
·
jetbrains
·
jcef
JetBrains IDE中GPU进程(JCEF)重启问题(Too many restarts of GPU-process)解决方案
在使用JetBrains系列IDE(如IntelliJ IDEA、PyCharm、WebStorm等)时,用户可能会遇到“GPU进程(JCEF)重启次数过多”的报错信息。该问题主要表现为IDE频繁闪退、卡顿,甚至无法正常启动。这种现象的主要原因是系统GPU进程不稳定或与JCEF(JetBrains Chromium Embedded Framework)组件存在兼容性问题。本文将深入分析该问题的原因,并提供具体的解决方案与优化建议,以便用户能够顺利使用JetBrains IDE进行开发。
强哥之神
1 个月前
人工智能
·
机器学习
·
语言模型
·
gpu
·
dockerfile
·
1024程序员节
·
llamafile
如何构建一个支持GPU的Llamafile容器
用CPU玩那些大型的语言模型确实挺有意思的,但看着电脑一个字一个字地慢慢显示结果,那股兴奋劲儿很快就过去了。让这些语言模型软件在GPU上跑起来可能会有点麻烦,因为这得看你的系统和硬件支不支持。我这篇文章就是想告诉你,怎么在你的NVIDIA RTX 2060上跑起来llamafile这个软件。里面的例子会用到llamafile、NVIDIA CUDA、Ubuntu 22.04操作系统还有Docker这几个工具。
木亦汐丫
1 个月前
gpu
·
同态加密
·
elgamal
·
paillier
·
ou
·
intel qat
·
heu
【隐私计算】隐语HEU同态加密算法解读
HEU: 一个高性能的同态加密算法库,提供了多种 PHE 算法,包括ZPaillier、FPaillier、IPCL、Damgard Jurik、DGK、OU、EC ElGamal 以及基于FPGA和GPU硬件加速版本的Paillier版本。
算家云
1 个月前
人工智能
·
aigc
·
gpu
·
图像生成
·
hugging face
·
3d模型生成
·
comfyui、
stable-zero123模型构建指南
stabilityai出品,能够对有简单背景的物体进行三维视角图片的生成,简单来说也就是通过调整变换观察的视角生成对应视角的图片。
夜洛IT后端技术分享
1 个月前
k8s
·
gpu
如何在kubernetes环境中共享GPU
随着人工智能和大模型的快速发展,云上GPU资源共享变得必要,因为它可以降低硬件成本,提升资源利用效率,并满足模型训练和推理对大规模并行计算的需求。
leboop-L
1 个月前
pytorch
·
深度学习
·
gpu
·
cuda
·
windows11
·
cudnn
Windows11安装CUDA、cuDNN、PyTorch详解
目录CUDA查看CUDA下载CUDA安装cuDNN安装PyTorch安装复现环境:首先我们需要看一下操作系统是否支持GPU。打开任务管理器,点击性能,如图:
Hi20240217
2 个月前
gpu
·
cuda
·
gpgpu
CUDA cooperative_groups grid_group测试
CUDA Cooperative Groups是CUDA编程模型中引入的一组高级特性,提供了更灵活的线程组织和同步机制 通过Cooperative Groups,开发者可以在不同层次上组织线程,并执行更高效的并行操作 grid_group.sync 可用于整个grid同步
Hi20240217
2 个月前
性能优化
·
gpu
·
cuda
·
性能分析
Tesla T4 P2P测试
Tesla T4 P2P测试
穷人小水滴
2 个月前
开发语言
·
windows
·
rust
·
gpu
·
窗口
·
vulkan
Windows (rust) vulkan 画一个三角形: 窗口创建与渲染初始化
在每个平台, 每前进一步, 都会出现许多预料之外的困难 (大坑).本文介绍在 Windows 操作系统之中, 使用 win32 API 创建窗口, 并使用 vulkano (rust) 初始化 vulkan, 绘制一个三角形.
竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生。
2 个月前
gpu
GPU参数指标
以英伟达的A800卡为例,简单聊聊GPU卡的核心参数指标,A800的核心指标主要有5个,为算力、显存大小、显存带宽、功耗情况和卡间互联速率。