CANN AMCT模型压缩工具链全貌解析:从训练后量化到稀疏剪枝的昇腾NPU部署管线——INT8/INT4混合精度量化策略与精度损耗诊断实录详解报告在昇腾NPU上进行大模型部署时,模型体积与推理吞吐始终是工程落地的核心矛盾。CANN生态中的AMCT(Ascend Model Compression Toolkit)提供了一套完整的模型压缩工具链,覆盖训练后量化(PTQ)、量化感知训练(QAT)、稀疏剪枝(Sparsity)与知识蒸馏(KD)四大能力。本文基于AMCT开源仓库的实际代码与文档,梳理从Calibration数据采集到量化模型导出的全流程,分析INT8/INT4混合精度量化的工程策略,并结合逐层敏感度分析与精度诊断手段,给出可复现的调优记录