背景
对pi05的llm模型进行nvfp4量化后,精度下降明显.
分析过程
上一篇文章介绍了model_optimizer推理性能可视化的功能
利用其逐渐修改nvfp4的量化配置,采用类似二分法查找精度敏感层。
修改量化配置后利用其对比功能跑修改后量化模型与量化前模型,进行对比。并利用可视化界面和数值统计很快就找到敏感层。
然后对敏感层使用fp8量化后,精度达标。后又尝试缩小fp8量化的layer,逐渐找到了最优的nvfp4+fp8混合量化配置。
因为项目文档有详细说明如何使用。因此如果有对项目和具体分析流程感兴趣的同学,我再进一步分享。