大语言模型预训练数据——数据采样方法介绍以GPT3为例

大语言模型预训练数据------数据采样方法介绍以GPT3为例

一、数据采样核心逻辑

这是 GPT - 3 训练时的数据集配置,核心是非等比例采样------不按数据集原始大小分配训练占比,而是人工设定不同数据集在训练中被抽取的概率(Weight in training mix ),让小数据集也能被多次学习,大数据集适当降低重复度,平衡模型学习广度与深度。

二、各列数据含义

  1. Dataset:训练 GPT - 3 用到的数据集,像 Common Crawl 是网页抓取数据,Wikipedia 是维基百科内容,Books1/2 是书籍文本等,覆盖不同来源、不同类型的语料。
  2. Quantity (tokens):每个数据集的token总量 ,比如 Common Crawl (filtered) 有 4100 亿 token,代表该数据集文本转成模型可处理的 token 后,总数量是这么多。
  3. Weight in training mix :训练时,从该数据集抽取样本的概率占比 。比如 Common Crawl 占 60%,意味着每一轮训练选样本,60%的概率从它这里选,和数据集本身大小无严格比例关系,是人为调的"采样权重"。
  4. Epochs elapsed when training for 300B tokens :当整体训练到 3000 亿 token 时,该数据集被"完整过几遍(Epoch )"。计算逻辑是:
    • 先算训练 3000 亿 token 时,从该数据集实际用了多少 token:3000 亿 × 该数据集权重
    • 再用"实际用的 token 量 ÷ 该数据集总 token 量",得到被训练的轮次(Epoch )。
    • 举个例子,以 Wikipedia 为例:
      • 按权重,训练 3000 亿 token 时,用了 3000 亿×3% = 90 亿 token
      • Wikipedia 总 token 是 30 亿,所以 Epoch = 90 亿÷30 亿 = 3.4 ,即被完整学习约 3.4 遍;同理,Common Crawl 是 3000 亿×60% = 1800 亿 token ,除以 4100 亿总 token,得到约 0.44 轮。

简单说,就是通过"自定义采样权重"打破数据集大小限制,让不同数据按需被模型学习多轮,最终"Epochs"体现的是:在 3000 亿总训练量下,单个数据集被重复学习的次数 ,背后是"权重×总训练量÷数据集自身大小"的计算逻辑。

相关推荐
lovod3 分钟前
【视觉SLAM十四讲】视觉里程计 1
人工智能·线性代数·计算机视觉·矩阵·机器人
格林威4 分钟前
紫外UV相机在机器视觉检测方向的应用
人工智能·数码相机·opencv·计算机视觉·视觉检测·uv
说私域1 小时前
情绪点设置在开源AI大模型驱动的S2B2C商城小程序AI智能名片中的应用研究
人工智能·小程序·开源
海底的星星fly1 小时前
【Prompt学习技能树地图】思维链(CoT)提示技术工作原理、主要技术方法及实践应用
人工智能·语言模型·prompt
Avicli1 小时前
从Prompt到Answer:详解AI Agent架构中的ReAct模式与工具调用
人工智能·prompt
腾飞开源2 小时前
AI智能体实战开发教程(从0到企业级项目落地):62节全完结,助力金九银十升职加薪!
人工智能·ai智能体·金九银十·agent落地实战·升职加薪·学习先机·企业级项目实战
黄啊码2 小时前
【黄啊码】别再花钱了,五分钟教你做一个国庆头像智能体小程序
人工智能
AI绘画哇哒哒2 小时前
实战:SQL统一访问200+数据源,构建企业级智能检索与RAG系统(下)
人工智能·sql·深度学习·学习·ai·程序员·大模型
2401_841495642 小时前
【计算机视觉】图像去雾技术
人工智能·python·opencv·算法·计算机视觉·技术·图像去雾
河北北重机械9662 小时前
汽车安全性能测试与铸铁底座的重要性
人工智能·算法·机器学习·铸铁底座·铁底座装配·试验台基底座加工