使用 vllm 运行 Llama3-8b-Instruct

使用 vllm 运行 Llama3-8b-Instruct

  • [0. 引言](#0. 引言)
  • [1. 安装 vllm](#1. 安装 vllm)
  • [2. 运行 Llama3-8b-Instruct](#2. 运行 Llama3-8b-Instruct)

0. 引言

此文章主要介绍使用 vllm 运行 Llama3-8b。

1. 安装 vllm

创建虚拟环境,

复制代码
conda create -n myvllm python=3.11 -y
conda activate myvllm

安装 Ray 和 Vllm,

复制代码
pip install ray vllm

安装 flash-attention,

复制代码
git clone https://github.com/Dao-AILab/flash-attention; cd flash-attention
pip install flash-attn --no-build-isolation

2. 运行 Llama3-8b-Instruct

复制代码
eval "$(conda shell.bash hook)"
conda activate myvllm
CUDA_VISIBLE_DEVICES=0
python -m vllm.entrypoints.openai.api_server --trust-remote-code --served-model-name gpt-4 --model meta-llama/Meta-Llama-3-8B-Instruct --gpu-memory-utilization 0.9 --tensor-parallel-size 1 --port 8000

完结!

相关推荐
西安同步高经理4 分钟前
秒表实现自动化测量助力时频测量行业发展、秒表检定仪、毫秒表测量仪
人工智能·算法
非著名架构师13 分钟前
超级工程的“数字风洞”:高精度AI气象如何在数字孪生中预演台风、暴雪,确保重大基础设施全生命周期安全?
人工智能·智慧农业·灾害预警·galeweather.cn·ai气象模型·高精度农业气象
延凡科技19 分钟前
延凡智慧水库系统:数字孪生+AI驱动水库安全与智能调度
人工智能·安全
magic_ll20 分钟前
【yolo系列】yolov10的结构解析、一致性双重分配
人工智能
Christo320 分钟前
2024《Three-way clustering: Foundations, survey and challenges》
人工智能·算法·机器学习·数据挖掘
言之。44 分钟前
Claude Code IDE 集成工作原理详解
ide·人工智能
肥猪猪爸1 小时前
计算机视觉中的Mask是干啥的
图像处理·人工智能·深度学习·神经网络·目标检测·计算机视觉·视觉检测
yiersansiwu123d1 小时前
工程化破局,2025年AI大模型的价值兑现之路
人工智能
_codemonster1 小时前
自然语言处理容易混淆知识点(六)SentenceTransformer的训练参数
人工智能·自然语言处理
2501_941329721 小时前
基于DETR的血细胞显微图像检测与分类方法研究【原创】_1
人工智能·数据挖掘