大模型的训练规律 - 大模型的训练规律技术,学习,经验文章

君臣Andy

1 年前

大模型的知识存储7B就够了，跟模型结构无关，跟训练时间有关一个 7B 规模的语言模型 LLM 能存储多少人类知识？如何量化这一数值？训练时间、模型架构的不同将如何影响这一数值？浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾) 又将对 LLM 的知识容量产生何种影响？