技术栈
大模型的训练规律
君臣Andy
8 小时前
大模型的训练规律
大模型的知识存储7B就够了,跟模型结构无关,跟训练时间有关
一个 7B 规模的语言模型 LLM 能存储多少人类知识?如何量化这一数值?训练时间、模型架构的不同将如何影响这一数值?浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾) 又将对 LLM 的知识容量产生何种影响?