ai训练顿悟“总数据量是 m²，训练所需要的数据量是 log m

zhangfeng11332026-06-09 18:10

ai训练达到顿悟的泛化效果，"总数据量是 m²，训练所需要的数据量是 log m

对于群算术任务（如模 M 加法），只需要 O(M log M) 的样本量就足以学到可泛化的特征，而不是 M²。

训练步数（Grokking delay）的 Scaling 不是简单的 log M，而是：

τgrok≈Ω⋅pcritp∝1ωρ\tau_{grok} \approx \frac{\Omega \cdot p_{crit}}{p} \propto \frac{1}{\omega \rho}τgrok≈pΩ⋅pcrit∝ωρ1

其中：

高冗余度下近似为 逆线性缩放（∝ 1/p）
也包含 log 项 ：τ=−Ωlog⁡(1−pcrit/p)\tau = -\Omega \log(1 - p_{crit}/p)τ=−Ωlog(1−pcrit/p)
小初始化下：k∗≍log⁡(1/ε)k_* \asymp \log(1/\varepsilon)k∗≍log(1/ε)

Tian et al. (2025) "Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking" --- 证明了 O(M log M) 的数据下界
Thomson et al. (2025) --- 推导出 Grokking 时间的闭式解，包含 log 项
Zhu et al. (2024) --- 从 Grokking 视角研究语言模型的临界数据规模

关键洞察：模型先快速记忆（高复杂度），然后在权重衰减压力下"坍缩"到简单解（低复杂度）。数据量决定了是否有足够的约束来稳定这个简单解，而训练步数取决于从记忆态逃逸到简单态的速度。

你提到的 "m²" 可能是：

但理论上，泛化不需要 M² 数据，O(M log M) 就够了------这是 Grokking 研究中最反直觉的发现之一。