[书生·浦语大模型实战营]——LMDeploy 量化部署 LLM 实践

1.基础作业

1.1配置 LMDeploy 运行环境

创建开发机

创建新的开发机,选择镜像Cuda12.2-conda;选择10% A100*1GPU;点击"立即创建"。注意请不要选择Cuda11.7-conda的镜像,新版本的lmdeploy会出现兼容性问题。其他和之前一样,不赘述。

创建conda环境

c 复制代码
studio-conda -t lmdeploy -o pytorch-2.1.2

安装LMDeploy

c 复制代码
#激活虚拟环境
conda activate lmdeploy
#安装0.3.0的imdeploy
pip install lmdeploy[all]==0.3.0

1.2以命令行方式与 InternLM2-Chat-1.8B 模型对话


2.进阶作业

2.1 设置KV Cache最大占用比例为0.4,开启W4A16量化,以命令行方式与模型对话。


2.2 以API Server方式启动 lmdeploy,开启 W4A16量化,调整KV Cache的占用比例为0.4,分别使用命令行客户端与Gradio网页客户端与模型对话。

命令行:

网页客户端:

2.3 使用W4A16量化,调整KV Cache的占用比例为0.4,使用Python代码集成的方式运行internlm2-chat-1.8b模型。

2.4 使用 LMDeploy 运行视觉多模态大模型 llava gradio demo。


相关推荐
xwz小王子几秒前
CFC:基于双层世界模型的角色 - 流体耦合仿真
人工智能
2401_871696525 分钟前
macOS 中使用 launchd 每分钟执行一次 PHP 脚本的完整配置指南
jvm·数据库·python
吕源林7 分钟前
MongoDB副本集在网络闪断后如何快速恢复_重连机制与心跳超时(electionTimeoutMillis)
jvm·数据库·python
Deepoch7 分钟前
VLA 分布式智能:Deepoc 开发板助力森林防火无人机集群自主巡检
人工智能·科技·无人机·具身模型·deepoc
数数科技的数据干货8 分钟前
官宣!数数科技正式更名为 ThinkingAI
大数据·人工智能·科技·agent
用户4410168396169 分钟前
Claude Code 工具系统架构深度拆解:安全性与可观测性的工程实践分析
人工智能·ai编程
小程故事多_8010 分钟前
深度拆解Hermes Agent,动态Prompt与Learning Loop架构的底层逻辑
人工智能·架构·prompt·aigc
洛阳吕工10 分钟前
2026 GEO 实战指南:从资料收集看 AI 搜索优化的核心变局
人工智能·chatgpt
熊猫钓鱼>_>10 分钟前
生成对抗网络(GAN)通俗解析:AI如何学会“无中生有”?
图像处理·人工智能·神经网络·生成对抗网络·ai·gan·博弈
葫三生11 分钟前
《论三生原理》系列:文化自信、知识范式重构与科技自主创新的思想运动源头?
大数据·人工智能·科技·深度学习·算法·重构·transformer