【文献阅读】Pretraining Large Language Models with NVFP4NVIDIA2025 年 9 月 30 日如今,大语言模型(LLM)在众多领域都是强大的问题解决工具。正如业界广泛的研究和实验所示,随着模型规模、训练集规模和训练集质量的扩大,它们的性能持续提升。目前,训练一个前沿模型需要数十至数百尧浮点运算的算力,这意味着在时间、计算资源和能源方面的巨额投入。因此,提高预训练效率对于开发下一代性能更强大的大语言模型至关重要。虽然 8 位浮点(FP8)训练现已被广泛采用,但转向精度更窄的格式(如 4 位浮点(FP4))有望进一步提升计算速度和资源利用率。然而,这种精度级别