ai训练 顿悟“总数据量是 m²,训练所需要的数据量是 log m

ai训练达到顿悟的泛化效果,"总数据量是 m²,训练所需要的数据量是 log m


核心结论

数据量:O(M log M)

对于群算术任务(如模 M 加法),只需要 O(M log M) 的样本量就足以学到可泛化的特征,而不是 M²。

  • 总样本空间是 M²(所有输入对)
  • 但理论证明:O(M log M) 样本就能维持泛化所需的局部最优解
  • 这意味着数据效率是 O((log M)/M) 的比例,远小于 1

训练步数:与 log 相关,但形式更复杂

训练步数(Grokking delay)的 Scaling 不是简单的 log M,而是:

τgrok≈Ω⋅pcritp∝1ωρ\tau_{grok} \approx \frac{\Omega \cdot p_{crit}}{p} \propto \frac{1}{\omega \rho}τgrok≈pΩ⋅pcrit∝ωρ1

其中:

  • 高冗余度下近似为 逆线性缩放(∝ 1/p)
  • 也包含 log 项 :τ=−Ωlog⁡(1−pcrit/p)\tau = -\Omega \log(1 - p_{crit}/p)τ=−Ωlog(1−pcrit/p)
  • 小初始化下:k∗≍log⁡(1/ε)k_* \asymp \log(1/\varepsilon)k∗≍log(1/ε)

关键论文

  • Tian et al. (2025) "Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking" --- 证明了 O(M log M) 的数据下界
  • Thomson et al. (2025) --- 推导出 Grokking 时间的闭式解,包含 log 项
  • Zhu et al. (2024) --- 从 Grokking 视角研究语言模型的临界数据规模

直观解释

阶段 数据需求 训练步数 机制
记忆化 很少 很快 过拟合训练集
Grokking O(M log M) 延迟 ~ log/逆线性 权重衰减推动发现简单解
立即泛化 > O(M log M) 几乎无延迟 数据足够直接学到规律

关键洞察:模型先快速记忆(高复杂度),然后在权重衰减压力下"坍缩"到简单解(低复杂度)。数据量决定了是否有足够的约束来稳定这个简单解,而训练步数取决于从记忆态逃逸到简单态的速度。


你可能混淆的来源

你提到的 "m²" 可能是:

  1. 总样本空间大小(确实是 M²)
  2. 纯记忆化所需的数据量(需要 M² 个神经元来记忆所有对)
  3. 某些特定任务的经验观察

但理论上,泛化不需要 M² 数据,O(M log M) 就够了------这是 Grokking 研究中最反直觉的发现之一。


相关推荐
半兽先生1 小时前
05阶段:NLP自然语言处理基础
人工智能·自然语言处理
盈飞无限1 小时前
SPC选型:智能VS传统,谁更懂中国制造?
人工智能·制造
li-xun1 小时前
LINUX DO 社区注册机制调整与公益 AI 服务动态
linux·运维·人工智能
云烟成雨TD2 小时前
Spring AI 1.x 系列【50】可观测性:接入 Prometheus + Grafana
人工智能·spring·prometheus
梦梦代码精2 小时前
为什么这个开源的AI平台会火?有点东西。。。
人工智能·算法·机器学习·docker·开源
大模型真好玩2 小时前
智能体从入门到精通:6个必学GitHub开源项目
人工智能·agent·deepseek
源图客2 小时前
Aitoearn:OPC(一人公司)的AI内容智能体
人工智能·dreamweaver
逸模3 小时前
AI+BIM 重构连锁公装新范式 逸模打造数字化营建核心底座
大数据·人工智能·笔记·其他·信息可视化·重构