使用 vllm 运行 Llama3-8b-Instruct

使用 vllm 运行 Llama3-8b-Instruct

  • [0. 引言](#0. 引言)
  • [1. 安装 vllm](#1. 安装 vllm)
  • [2. 运行 Llama3-8b-Instruct](#2. 运行 Llama3-8b-Instruct)

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

创建虚拟环境,

conda create -n myvllm python=3.11 -y
conda activate myvllm

安装 Ray 和 Vllm,

pip install ray vllm

安装 flash-attention,

git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation

2. 运行 Llama3-8b-Instruct

eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000

完结!

相关推荐
雷焰财经10 分钟前
智象未来(HiDream.ai)技术赋能,开启AR眼镜消费时代
人工智能·ar
SaNDJie33 分钟前
24.11.20 深度学习 前置 torch框架
人工智能·深度学习
剑盾云安全专家35 分钟前
探索智能时代:从AI生成PPT到自动化未来
人工智能·aigc
python15638 分钟前
项目实战:基于深度学习的人脸表情识别系统设计与实现
人工智能·深度学习
ProtonBase1 小时前
分布式 Data Warebase - 构筑 AI 时代数据基石
大数据·数据库·数据仓库·人工智能·分布式·数据分析·数据库系统
不高明的骗子1 小时前
【深度学习之二】正则化函数(weight decay, dropout, label smoothing, and etc)详解,以及不同的函数适用的场景
人工智能·深度学习·神经网络
qq_273900231 小时前
旋转向量v和旋转矩阵R
人工智能·python·线性代数·矩阵
WeeJot嵌入式1 小时前
PyQT开发与实践:全面掌握跨平台桌面应用开发
人工智能·pyqt
幻风_huanfeng1 小时前
在使用PCA算法进行数据压缩降维时,如何确定最佳维度是一个关键问题?
人工智能·机器学习
SEVEN-YEARS2 小时前
使用OpenCV实现图像拼接
人工智能·opencv·计算机视觉