使用 vllm 运行 Llama3-8b-Instruct

engchina2024-04-20 22:44

使用 vllm 运行 Llama3-8b-Instruct

[0. 引言](#0. 引言)
[1. 安装 vllm](#1. 安装 vllm)
[2. 运行 Llama3-8b-Instruct](#2. 运行 Llama3-8b-Instruct)

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

创建虚拟环境，

复制代码

conda create -n myvllm python=3.11 -y
conda activate myvllm

安装 Ray 和 Vllm，

复制代码

pip install ray vllm

安装 flash-attention，

复制代码

git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation

2. 运行 Llama3-8b-Instruct

复制代码

eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000

完结！

上一篇：7.MMD 法线贴图的设置与调教

下一篇：redis的缓存