ai训练 顿悟“总数据量是 m²,训练所需要的数据量是 log m

ai训练达到顿悟的泛化效果,"总数据量是 m²,训练所需要的数据量是 log m


核心结论

数据量:O(M log M)

对于群算术任务(如模 M 加法),只需要 O(M log M) 的样本量就足以学到可泛化的特征,而不是 M²。

  • 总样本空间是 M²(所有输入对)
  • 但理论证明:O(M log M) 样本就能维持泛化所需的局部最优解
  • 这意味着数据效率是 O((log M)/M) 的比例,远小于 1

训练步数:与 log 相关,但形式更复杂

训练步数(Grokking delay)的 Scaling 不是简单的 log M,而是:

τgrok≈Ω⋅pcritp∝1ωρ\tau_{grok} \approx \frac{\Omega \cdot p_{crit}}{p} \propto \frac{1}{\omega \rho}τgrok≈pΩ⋅pcrit∝ωρ1

其中:

  • 高冗余度下近似为 逆线性缩放(∝ 1/p)
  • 也包含 log 项 :τ=−Ωlog⁡(1−pcrit/p)\tau = -\Omega \log(1 - p_{crit}/p)τ=−Ωlog(1−pcrit/p)
  • 小初始化下:k∗≍log⁡(1/ε)k_* \asymp \log(1/\varepsilon)k∗≍log(1/ε)

关键论文

  • Tian et al. (2025) "Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking" --- 证明了 O(M log M) 的数据下界
  • Thomson et al. (2025) --- 推导出 Grokking 时间的闭式解,包含 log 项
  • Zhu et al. (2024) --- 从 Grokking 视角研究语言模型的临界数据规模

直观解释

阶段 数据需求 训练步数 机制
记忆化 很少 很快 过拟合训练集
Grokking O(M log M) 延迟 ~ log/逆线性 权重衰减推动发现简单解
立即泛化 > O(M log M) 几乎无延迟 数据足够直接学到规律

关键洞察:模型先快速记忆(高复杂度),然后在权重衰减压力下"坍缩"到简单解(低复杂度)。数据量决定了是否有足够的约束来稳定这个简单解,而训练步数取决于从记忆态逃逸到简单态的速度。


你可能混淆的来源

你提到的 "m²" 可能是:

  1. 总样本空间大小(确实是 M²)
  2. 纯记忆化所需的数据量(需要 M² 个神经元来记忆所有对)
  3. 某些特定任务的经验观察

但理论上,泛化不需要 M² 数据,O(M log M) 就够了------这是 Grokking 研究中最反直觉的发现之一。


相关推荐
小和尚同志4 小时前
AI 自动化测试探索(二):Chrome-devtools MCP
人工智能·e2e·aigc
冬奇Lab6 小时前
Workflow 系列(02):设计范式——四层架构、三种 Context 传递模式与确认门设计
人工智能·agent·工作流引擎
冬奇Lab6 小时前
每日一个开源项目(第145篇):Trellis - 把项目记忆、规范和任务上下文持久化进代码仓库
人工智能·开源·资讯
有道AI情报局6 小时前
Harness即产品
人工智能·agent
罗西的思考7 小时前
机器人 / 强化学习】HIL-SERL:人类在环驱动的具身智能进化框架
人工智能·算法·机器学习
IT_陈寒8 小时前
SpringBoot自动配置的坑,我的API突然就404了
前端·人工智能·后端
笃行3508 小时前
从零到上线:用 EdgeOne Makers + CodeBuddy 搭一个「对账核对员」AI Agent
人工智能
用户6856326208699 小时前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"
人工智能
你_好9 小时前
# 给你的产品嵌入一个「会操作界面的 AI 助手」
人工智能
ShallWeL9 小时前
【机器学习】(3)—— 线性回归:梯度下降
人工智能·机器学习