【第二十二周】自然语言处理的学习笔记06本周主要学习模型训练优化、核心技术优化以及轻量化模型。 模型训练优化主要通过对CPU 与 GPU 的核心差异以及内部数据流向的学习引入显卡部分内容,显卡部分主要学习了显卡显存的四大占用组成,多张显卡的五大协作算子。以及四种模型训练优化方式:数据并行,模型并行,ZeRO,流水线并行。 核心技术优化方案包括,混合精度训练,Offloading,计算重叠,检查点 + 重计算 轻量化模型本周只来得及学习知识蒸馏,通过知识蒸馏可以在教师模型的基础上对数据有深层的理解后再进行进一步的学习。