准备环境
拉取环境
bash
/root/share/install_conda_env_internlm_base.sh lmdeploy
激活环境
bash
conda activate lmdeploy
安装依赖库
bash
# 解决 ModuleNotFoundError: No module named 'packaging' 问题
pip install packaging
# 使用 flash_attn 的预编译包解决安装过慢问题
pip install /root/share/wheels/flash_attn-2.4.2+cu118torch2.0cxx11abiTRUE-cp310-cp310-linux_x86_64.whl
pip install 'lmdeploy[all]==v0.2.4'
复制模型
bash
cp -r /root/share/model_repos/internlm2-chat-20b/ /root/model/
INT4 权重量化
bash
lmdeploy lite auto_awq \
"/root/model/internlm2-chat-20b/" \
--calib-dataset 'ptb' \
--calib-samples 128 \
--calib-seqlen 2048 \
--w-bits 4 \
--w-group-size 128 \
--work-dir ./quant_output
使用控制台和模型对话
bash
lmdeploy chat turbomind ./quant_output --model-format awq