目录
[1.1 为什么需要压缩?](#1.1 为什么需要压缩?)
[1.2 主流压缩技术](#1.2 主流压缩技术)
[知识蒸馏(Knowledge Distillation):](#知识蒸馏(Knowledge Distillation):)
[2.1 主流部署框架](#2.1 主流部署框架)
[Triton Inference Server(NVIDIA):](#Triton Inference Server(NVIDIA):)
[2.2 部署模式](#2.2 部署模式)
[3.1 核心优化方向](#3.1 核心优化方向)
[PagedAttention 的解决方案](#PagedAttention 的解决方案)
[MoE(Mixture of Experts)架构](#MoE(Mixture of Experts)架构)
[3.2 性能指标](#3.2 性能指标)
[四、应用开发:构建生产级 AI 服务](#四、应用开发:构建生产级 AI 服务)
[4.1 开发范式转变](#4.1 开发范式转变)
大模型部署学习笔记:从压缩到应用开发的全流程指南
随着大语言模型(LLMs)参数规模突破千亿甚至万亿级别,如何高效、低成本地部署这些"庞然大物"已成为工业界落地的核心挑战。本文将围绕 模型压缩 、部署工具 、推理加速 和 应用开发 四个维度,系统梳理当前(截至2026年)主流的大模型部署技术栈与最佳实践。
一、模型压缩:让大模型"瘦身"上终端
1.1 为什么需要压缩?
- 显存爆炸 :72B 模型在 FP16 精度下需约 144GB 显存,单卡无法运行。
- 成本高昂:A100 GPU 月租超 $1500,高延迟影响用户体验。
- 边缘受限:手机、IoT 设备等资源有限,需轻量化模型。
1.2 主流压缩技术
量化(Quantization):
将模型权重和激活值从高精度浮点数(如 FP32/FP16)转换为低精度整数(如 INT8/INT4),从而:
- 显存占用减少 4~8 倍
- 计算量大幅下降(整数运算快于浮点)
- 支持更多硬件加速(如 NVIDIA Tensor Core、Apple Neural Engine)
| 类型 | 描述 | 精度损失 | 适用场景 |
|---|---|---|---|
| 训练后量化(PTQ) | 直接对已训练好的模型进行量化 | 中等 | 快速部署、无需重训 |
| 量化感知训练(QAT) | 在训练中模拟量化过程,微调模型 | 极小 | 高精度要求场景 |
| 混合精度量化 | 关键层(如 attention)保留高精度,其余层量化 | 几乎无损 | 平衡性能与精度 |
2026年新进展
-
AWQ(Activation-aware Weight Quantization):根据激活值分布动态调整量化尺度,在 INT4 下几乎无损。
-
GGUF 格式普及:Ollama、llama.cpp 等工具链原生支持,实现跨平台轻量部署。
-
MoE + 量化:仅量化专家子网络,保留路由机制精度。
剪枝(Pruning):
识别并移除模型中"不重要"的权重、神经元或注意力头,降低模型复杂度
| 类型 | 特点 | 工具/方法 | 优势 |
|---|---|---|---|
| 非结构化剪枝 | 随机移除单个权重 | Magnitude Pruning | 压缩率高 |
| 结构化剪枝 | 移除整行/整列/整个模块 | Wanda(2025)、LayerDrop | 兼容硬件加速 |
| 注意力头剪枝 | 移除冗余的多头注意力 | Head Importance Score | 专用于 Transformer |
知识蒸馏(Knowledge Distillation):
用一个大型"教师模型"(Teacher)指导小型"学生模型"(Student)学习,使其在更小体积下逼近教师性能。
2026年优化方向
- 动态温度蒸馏:根据样本难度动态调整 softmax 温度,提升难样本学习效果。
- 多教师蒸馏:融合多个教师模型的知识,提升学生泛化能力。
- 自蒸馏(Self-Distillation) :同一模型不同层之间相互蒸馏,无需额外教师。
二、部署工具:简化从模型到服务的流程
在大模型(LLM)的工程化落地中,部署是连接"训练好的模型"与"可用的服务"的关键一步。面对众多部署工具,如何选择?
2.1 主流部署框架
vLLM:
-
vLLM:高性能生产级推理引擎
vLLM 是由加州大学伯克利分校开发的高效推理和服务框架,已成为企业级高并发场景的事实标准。
- 核心优势 :
- PagedAttention :通过创新的注意力机制,极大地提升了显存利用率和吞吐量,支持更高的并发请求。
- OpenAI API 兼容 :原生提供与 OpenAI API 格式兼容的服务端点,可以无缝替换现有应用中的 API 调用。
- 连续批处理 (Continuous Batching) :动态地将不同长度的请求组合成一个批次,最大化 GPU 利用率,显著降低请求延迟。
- 适用场景 :
- 高并发的在线服务,如智能客服、在线问答平台。
- 需要处理大量文本的批量生成任务。
- 对服务稳定性和吞吐量有严格要求的生产环境。
- 核心优势 :
Ollama:
- 由前 Meta 工程师开发,三行命令即可本地部署。
- 自动适配硬件(CUDA / Metal / CPU),支持 GGUF 格式。
- Ollama 是一个轻量级的模型托管框架,以其极简的操作和出色的易用性著称。
Triton Inference Server(NVIDIA):
- 企业级部署方案,支持多模型、动态批处理、GPU 资源隔离。
2.2 部署模式
- 单机部署:适用于开发测试或低并发场景。
- 分布式集群 :通过模型并行(如 Tensor Parallelism)拆分大模型。
- 云原生部署:结合 Kubernetes 实现弹性扩缩容与高可用。
📌 示例流程:
模型量化 → vLLM 加载 → Nginx 负载均衡 → OpenAPI 封装
三、推理加速:提升响应速度与吞吐量
3.1 核心优化方向
- 内存优化 :使用 PagedAttention(vLLM)、KV Cache 复用。
- 计算优化 :融合算子(Kernel Fusion)、FlashAttention。
- 批处理:动态批处理(Continuous Batching)提升 GPU 利用率。
PagedAttention 的解决方案
PagedAttention 借鉴了操作系统中虚拟内存的思想。它将 KV Cache 分割成固定大小的"块"(Block),这些块在物理显存中可以不连续。
- 按需分配 :只有当请求真正需要时,才为其分配新的显存块。
- 高效利用 :彻底消除了显存碎片,使得 GPU 显存利用率接近 100%。
- 结果 :这意味着你可以在同一块 GPU 上处理更多的并发请求,极大地提升了系统的整体吞吐量。
除了 PagedAttention,vLLM 还通过 连续批处理(Continuous Batching) 技术,动态地将新到达的请求插入到正在执行的批次中,避免了传统批处理中 GPU 的空闲等待,进一步压榨了硬件性能。
MoE(Mixture of Experts)架构
传统的稠密模型(Dense Model),在处理任何一个输入时,都会激活模型中的所有参数。
而 MoE 模型则将模型拆分成多个独立的**"专家网络"(Experts)** ,并配备了一个**"门控网络"(Gating Network,也叫路由器)**。
工作流程如下:
- 输入:用户输入一个 Token(比如"苹果")。
- 路由:门控网络分析这个 Token,判断它属于哪个领域(比如"水果"还是"科技公司")。
- 选择 :门控网络从几十个甚至上百个专家中,只挑选出最相关的 Top-K 个专家(比如只选 2 个)。
- 处理:只有这 2 个专家被激活进行计算,其他专家"休息"。
- 输出:将这 2 个专家的计算结果加权融合,输出最终结果。
MoE 技术让大模型从"全才"进化为"专家团队"。它通过稀疏激活,让我们在有限的算力预算下,能够构建参数量更大、能力更强的模型。
3.2 性能指标
- 首 token 延迟(TTFT):影响用户体验,需 <1s。
- 吞吐量(Tokens/s):决定并发服务能力。
- 显存效率:单位显存支持的最大 batch size。
💡 2025 年新趋势:MoE(Mixture of Experts)架构 + 选择性激活,可在不增加计算量的前提下提升模型能力。
四、应用开发:构建生产级 AI 服务
4.1 开发范式转变
- 从"手工作坊"到"工业化流水线":
- 使用 AI Agent 框架(如 LangChain、LlamaIndex)编排复杂任务。
- 结合 RAG(检索增强生成) 提升事实准确性。
- 大模型微调层级
| 微调层级 | 技术代表 | 资源门槛 | 效果上限 | 风险点 | 推荐场景 |
|---|---|---|---|---|---|
| L0 (基础) | 预训练 | 极高 (千卡集群) | 通用能力强 | 容易有幻觉 | 打造通用大模型基座 (开源大模型) |
| L1 (行业) | 全量微调 / 深度LoRA | 高 (多卡服务器) | 行业专业度高 | 灾难性遗忘 | 医疗、法律、工业等垂直领域基座(场景大模型) |
| L2 (任务) | RAG | 中 (单卡/双卡) | 任务执行精准 | 泛化能力稍弱 | 企业私有知识库、特定格式生成 (企业大模型) |
详细介绍
https://blog.csdn.net/2201_75633021/article/details/159581879?spm=1001.2014.3001.5501
结语
大模型部署已不再是"能不能跑"的问题,而是"如何高效、安全、低成本地跑"。掌握 压缩 → 部署 → 加速 → 应用 的全链路技术,是每一位 AI 工程师在 2026 年必须具备的核心能力。