【大模型基础部署】（学习笔记）

2026年新进展

识别并移除模型中"不重要"的权重、神经元或注意力头，降低模型复杂度

类型	特点	工具/方法	优势
非结构化剪枝	随机移除单个权重	Magnitude Pruning	压缩率高
结构化剪枝	移除整行/整列/整个模块	Wanda（2025）、LayerDrop	兼容硬件加速
注意力头剪枝	移除冗余的多头注意力	Head Importance Score	专用于 Transformer

用一个大型"教师模型"（Teacher）指导小型"学生模型"（Student）学习，使其在更小体积下逼近教师性能。

2026年优化方向

在大模型（LLM）的工程化落地中，部署是连接"训练好的模型"与"可用的服务"的关键一步。面对众多部署工具，如何选择？

vLLM：高性能生产级推理引擎

vLLM 是由加州大学伯克利分校开发的高效推理和服务框架，已成为企业级高并发场景的事实标准。
- 核心优势 ：
  - PagedAttention ：通过创新的注意力机制，极大地提升了显存利用率和吞吐量，支持更高的并发请求。
  - OpenAI API 兼容 ：原生提供与 OpenAI API 格式兼容的服务端点，可以无缝替换现有应用中的 API 调用。
  - 连续批处理 (Continuous Batching) ：动态地将不同长度的请求组合成一个批次，最大化 GPU 利用率，显著降低请求延迟。
- 适用场景 ：
  - 高并发的在线服务，如智能客服、在线问答平台。
  - 需要处理大量文本的批量生成任务。
  - 对服务稳定性和吞吐量有严格要求的生产环境。

📌 示例流程：模型量化 → vLLM 加载 → Nginx 负载均衡 → OpenAPI 封装

PagedAttention 借鉴了操作系统中虚拟内存的思想。它将 KV Cache 分割成固定大小的"块"（Block），这些块在物理显存中可以不连续。

除了 PagedAttention，vLLM 还通过 连续批处理（Continuous Batching） 技术，动态地将新到达的请求插入到正在执行的批次中，避免了传统批处理中 GPU 的空闲等待，进一步压榨了硬件性能。

传统的稠密模型（Dense Model），在处理任何一个输入时，都会激活模型中的所有参数。

而 MoE 模型则将模型拆分成多个独立的**"专家网络"（Experts）** ，并配备了一个**"门控网络"（Gating Network，也叫路由器）**。

工作流程如下：

MoE 技术让大模型从"全才"进化为"专家团队"。它通过稀疏激活，让我们在有限的算力预算下，能够构建参数量更大、能力更强的模型。

💡 2025 年新趋势：MoE（Mixture of Experts）架构 + 选择性激活，可在不增加计算量的前提下提升模型能力。

从"手工作坊"到"工业化流水线"：
- 使用 AI Agent 框架（如 LangChain、LlamaIndex）编排复杂任务。
- 结合 RAG（检索增强生成） 提升事实准确性。
- 大模型微调层级

详细介绍

大模型部署已不再是"能不能跑"的问题，而是"如何高效、安全、低成本地跑"。掌握 压缩 → 部署 → 加速 → 应用 的全链路技术，是每一位 AI 工程师在 2026 年必须具备的核心能力。