技术栈
vllm
LZXCyrus
1 个月前
人工智能
·
经验分享
·
python
·
深度学习
·
语言模型
·
llm
·
vllm
【杂记】vLLM如何指定GPU单卡/多卡离线推理
仅作个人学习与记录用。主要记录vLLM指定GPU单卡/多卡离线推理的方法。vLLM官方文档中Environment Variables页面有对指定GPU方法的唯一描述:
探索云原生
1 个月前
ai
·
云原生
·
kubernetes
·
gpu
·
vllm
大模型推理指南:使用 vLLM 实现高效推理
本文主要分享如何使用 vLLM 实现大模型推理服务。大模型推理有多种方式比如其中,热度最高的应该就是 vLLM,性能好的同时使用也非常简单,本文就分享一下如何使用 vLLM 来启动大模型推理服务。
野指针小李
1 个月前
lora
·
sft
·
vllm
·
llama-factory
LLaMA-Factory学习笔记(1)——采用LORA对大模型进行SFT并采用vLLM部署的全流程
该博客是我根据自己学习过程中的思考与总结来写作的,由于初次学习,可能会有错误或者不足的地方,望批评与指正。
内卷焦虑人士
2 个月前
1024程序员节
·
vllm
·
wsl2
【Bug】RuntimeError: Engine loop has died
使用vllm启动qwen2.5-32b-instruct模型后发生的报错 GPU是GeForce RTX 4090 Laptop GPU 系统是Windows 11 运行系统是WSL2-Ubuntu22.04
yuanlulu
2 个月前
人工智能
·
深度学习
·
语言模型
·
自然语言处理
·
大语言模型
·
vllm
vllm启动大语言模型时指定chat_template
在Linux下启动vllm:使用下面的命令测试出错:返回的信息为:上面的返回信息可知,是没有指定chat template引起的。
AI_小站
3 个月前
人工智能
·
深度学习
·
架构
·
llm
·
大语言模型
·
ai大模型
·
vllm
图解大模型计算加速系列:vLLM源码解析1,整体架构
整个vLLM代码读下来,给我最深的感觉就是:代码呈现上非常干净历练,但是逻辑比较复杂,环环嵌套,毕竟它是一个耦合了工程调度和模型架构改进的巨大工程。
放飞自我的Coder
4 个月前
linux
·
python
·
vllm
【linux 安装vllm=0.5.4】
环境创建环境安装ninjia安装vllm启动openai-server不要从源码安装,很多的问题!!
alxe_made
6 个月前
llm
·
vllm
·
llava
VLM系列文章1-LLaVA
作为VLM系列的第一篇文章,打算以LLaVA入手,毕竟是VLM领域较为经典的工作。核心思想就是将视觉特征嵌入到LLM中,作为LLM的prefix(前缀),LLM作为建模的主体。
汀、人工智能
7 个月前
人工智能
·
自然语言处理
·
llm
·
agent
·
ai大模型
·
vllm
·
大模型部署
LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战
GPU设备: A10, 3090, V100, A100均可.vllm不支持bnb量化的模型. vllm支持的模型可以查看支持的模型.
engchina
8 个月前
人工智能
·
vllm
·
llama3
·
llama3-8b
使用 vllm 运行 Llama3-8b-Instruct
此文章主要介绍使用 vllm 运行 Llama3-8b。创建虚拟环境,安装 Ray 和 Vllm,安装 flash-attention,
又见阿郎
8 个月前
chatglm
·
vllm
聊聊ChatGLM3多用户并发API调用的问题
转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote目前在公司内部4张A10的GPU服务器上部署了ChatGLM3开源模型;然后部署了官方默认的web_demo、api_demo两种模式;重新设计了前端,支持H5和安卓两个客户端调用。但却发现了不能并发访问的问题。
shui123546yi
1 年前
llm
·
aigc
·
vllm
·
大模型推理
vLLM介绍
vLLM 工程github地址 Paged attention论文地址vLLM: A high-throughput and memory-efficient inference and serving engine for LLMs. SkyPilot: A framework for easily and cost effectively running machine learning workloads on any cloud.