使用 vllm 运行 Llama3-8b-Instruct
- [0. 引言](#0. 引言)
- [1. 安装 vllm](#1. 安装 vllm)
- [2. 运行 Llama3-8b-Instruct](#2. 运行 Llama3-8b-Instruct)
0. 引言
此文章主要介绍使用 vllm 运行 Llama3-8b。
1. 安装 vllm
创建虚拟环境,
conda create -n myvllm python=3.11 -y
conda activate myvllm
安装 Ray 和 Vllm,
pip install ray vllm
安装 flash-attention,
git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation
2. 运行 Llama3-8b-Instruct
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000
完结!