文章目录
- 1、知识存储与结构无关
- 2、知识存储不在MLP层
- [3 、==低质量数据==、可能会让模型对高质量知识的存储量下降 20 倍](#3 、==低质量数据==、可能会让模型对高质量知识的存储量下降 20 倍)
- [4、GatedMLP 会导致训练不稳定,因此对同样的知识,需要更长的训练时间](#4、GatedMLP 会导致训练不稳定,因此对同样的知识,需要更长的训练时间)
- 5、量化不会影响对知识的存储
背景
一个 7B 规模的语言模型 LLM 能存储多少人类知识?如何量化这一数值?训练时间、模型架构的不同将如何影响这一数值?浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾) 又将对 LLM 的知识容量产生何种影响?
1、知识存储与结构无关
如果训练时间充足,作者发现,不论使用何种模型架构 ,GPT2 或 LlaMA/Mistral,模型的存储效率均可以达到 2bit/param------ 即平均每个模型参数可以存储 2 比特的信息。这与模型的深度无关,仅与模型大小有关。换言之,一个 7B大小的模型,如果训练充足,可以存储 14B 比特的知识,这超过了维基百科和所有英文教科书中人类知识的总和!
2、知识存储不在MLP层
更令人惊讶的是,尽管传统理论认为 transformer 模型中的知识主要存储在 MLP 层,但作者的研究反驳了这一观点,他们发现即便移除了所有 MLP 层,模型仍能达到 2bit/param 的存储效率。
3 、低质量数据、可能会让模型对高质量知识的存储量下降 20 倍
低质量数据是否会影响 LLM 对高质量知识的吸收呢?结果令人惊讶,即使对高质量数据的训练时间保持一致,低质量数据的「存在本身」,可能会让模型对高质量知识的存储量下降 20 倍!即便将高质量数据的训练时间延长 3 倍,知识储量仍会降低 3 倍。这就像是将金子丢进沙子里,高质量数据被严重浪费了。
有什么办法修复呢?作者提出了一个简单但极其有效的策略,只需给所有的 (预) 训练数据加上自己的网站域名 token 即可。例如,将 Wiki 百科数据统统加上 wikipedia.org。模型不需要任何先验知识来识别哪些网站上的知识是「金子」,而可以在预训练过程中,自动发现高质量知识的网站,并自动为这些高质量数据腾出存储空间。
作者提出了一个简单的实验来验证:如果高质量数据都加上一个特殊 token(任何特殊 token 都行,模型不需要提前知道是哪个 token),那么模型的知识存储量可以立即回升 10 倍,是不是很神奇?所以说对预训练数据增加域名 token,是一个极其重要的数据制备操作。
4、GatedMLP 会导致训练不稳定,因此对同样的知识,需要更长的训练时间
当我们观察训练时间不足的情况时,模型间的差异就显现出来了。在这种情况下,GPT2 模型能比 LlaMA/Mistral 存储超过 30% 的知识,这意味着几年前的模型在某些方面超越了今天的模型 。为什么会这样?作者通过在 LlaMA 模型上进行架构调整,将模型与 GPT2 的每个差异进行增减,最终发现是 GatedMLP 导致了这 30% 的损失 。
强调一下,GatedMLP 并不会导致模型的「最终」存储率变化 ------ 我们如果训练充足它们就不会有差。但是,GatedMLP 会导致训练不稳定,因此对同样的知识,需要更长的训练时间;换句话说,对于较少出现在训练集里的知识,模型的存储效率就会下降。
5、量化不会影响对知识的存储
将训练好的模型从 float32/16 压缩到 int8,竟然对知识的存储毫无影响,即便对已经达到 2bit/param 存储极限的模型也是如此。
这意味着,LLM 可以达到「信息论极限」的 1/4------ 因为 int8 参数只有 8 比特,但平均每个参数可以存储 2 比特的知识。作者指出,这是一个普遍法则(universal law),和知识的表现形式无关。
论文地址:https://arxiv.org/pdf/2404.05405.pdf
论文标题:Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws