[书生·浦语大模型实战营]——LMDeploy 量化部署 LLM 实践

1.基础作业

1.1配置 LMDeploy 运行环境

创建开发机

创建新的开发机,选择镜像Cuda12.2-conda;选择10% A100*1GPU;点击"立即创建"。注意请不要选择Cuda11.7-conda的镜像,新版本的lmdeploy会出现兼容性问题。其他和之前一样,不赘述。

创建conda环境

c 复制代码
studio-conda -t lmdeploy -o pytorch-2.1.2

安装LMDeploy

c 复制代码
#激活虚拟环境
conda activate lmdeploy
#安装0.3.0的imdeploy
pip install lmdeploy[all]==0.3.0

1.2以命令行方式与 InternLM2-Chat-1.8B 模型对话


2.进阶作业

2.1 设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。


2.2 以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。

命令行:

网页客户端:

2.3 使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。

2.4 使用 LMDeploy 运行视觉多模态大模型 llava gradio demo。


相关推荐
蓝程序11 小时前
Spring AI学习 程序接入大模型
java·人工智能·spring
西柚小萌新11 小时前
【论文阅读】--PEACE:基于多模态大语言模型的地质图全息理解赋能框架
人工智能·语言模型·自然语言处理
2501_9418008811 小时前
从微服务限流到系统稳定性的互联网工程语法实践与多语言探索
开发语言·python
GalenZhang88811 小时前
使用 Python SDK 将数据写入飞书多维表格
数据库·python·飞书·多维表格
Ai野生菌11 小时前
论文解读 | 当“提示词”学会绕路:用拓扑学方法一次击穿多智能体安全防线
人工智能·深度学习·安全·语言模型·拓扑学
pengdott11 小时前
Linux进程数据结构与组织方式深度解析
linux·运维·服务器
Java 码农11 小时前
gitlab gitrunner springboot 多环境多分支部署 (非容器方式,使用原生linux 环境)
linux·spring boot·gitlab
狮子座明仔11 小时前
MegaBeam-Mistral-7B:扩展上下文而非参数的高效长文本处理
人工智能·深度学习·自然语言处理·知识图谱
清水白石00811 小时前
《深度剖析 Pandas GroupBy:底层实现机制与性能瓶颈全景解析》
开发语言·python·numpy
reasonsummer11 小时前
【办公类-125-01】20260106期末资料多个docx合并成一个PDF打印(单数页+1空白页,双数页不变)
python·pdf