使用 vllm 运行 Llama3-8b-Instruct

使用 vllm 运行 Llama3-8b-Instruct

  • [0. 引言](#0. 引言)
  • [1. 安装 vllm](#1. 安装 vllm)
  • [2. 运行 Llama3-8b-Instruct](#2. 运行 Llama3-8b-Instruct)

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

创建虚拟环境,

复制代码
conda create -n myvllm python=3.11 -y
conda activate myvllm

安装 Ray 和 Vllm,

复制代码
pip install ray vllm

安装 flash-attention,

复制代码
git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation

2. 运行 Llama3-8b-Instruct

复制代码
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000

完结!

相关推荐
mwq301239 小时前
GPT-2技术范式解析:无监督多任务学习的概率视角
人工智能
荼蘼9 小时前
使用 Flask 实现本机 PyTorch 模型部署:从服务端搭建到客户端调用
人工智能·pytorch·python
后端小肥肠10 小时前
【n8n 入门系列】10 分钟部署 n8n,手把手教你搭第一个自动化工作流,小白可学!
人工智能·aigc
mwq3012310 小时前
从 Word2Vec 到 GPT:词向量的上下文进化史
人工智能
爱读源码的大都督10 小时前
RAG效果不理想?试试用魔法打败魔法:让大模型深度参与优化的三阶段实战
java·人工智能·后端
极客BIM工作室10 小时前
机器学习之规则学习(Rule Learning)
人工智能·机器学习
mwq3012311 小时前
GPT vs BERT:一个是预言家,一个是侦探|深入理解语言模型的两大范式
人工智能
mwq3012311 小时前
AI模型的“返璞归真”:为何设计越来越简单,性能却持续爆发?
人工智能
2501_9307992411 小时前
访答知识库#Pdf转word#人工智能#Al编辑器#访答PAG#企业知识库人,个人知识库,访答编辑器,访答浏览器,本地知识库,企业知识库……
人工智能
聚客AI11 小时前
🌟RAG多轮对话场景攻坚:如何实现低延迟高准确率的语义理解?
人工智能·llm·掘金·日新计划