书生·浦语大模型实战营第五节课笔记及作业

zpc12192024-01-19 15:15

LMDeploy 大模型量化部署实践

1 大模型部署背景

1.1 模型部署及大模型特点

1.2 大模型部署挑战及方案

2 LMDeploy简介

2.1 核心功能-量化

2.2 核心功能-推理引擎TurboMind

2.1 核心功能-推理服务api server

3 动手实践及作业

按照文档LMDeploy 的量化和部署中的步骤在InternStudio中的 A100(1/4) 机器上一步步操作即可！

3.1 基础作业

使用 LMDeploy 以本地对话、网页Gradio、API服务中的一种方式部署 InternLM-Chat-7B 模型，生成 300 字的小故事（需截图）

3.1.1 本地对话形式

3.1.2 API服务形式

3.1.3 网页Gradio形式

TurboMind 服务作为后端:

TurboMind 推理作为后端

参考文献：

1、文档：LMDeploy 的量化和部署

2、视频：LMDeploy 大模型量化部署实践

上一篇：无法访问云服务器上部署的Docker容器

下一篇：MySQL主从复制原理与实践：从配置到故障监控

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03KGG转MP3工具|非KGM文件|解密音频 04Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）07Spring 调试终于不再痛苦了 082025最新国内服务器可用docker源仓库地址大全（2025年8月更新）09Claude Code VSCode集成开发指南：AI编程助手完整配置 10【大模型实战篇】部署GPT-OSS-120B踩得坑（vllm / ollama等推理框架）