灵机一物AI原生电商小程序、PC端(已上线)-TST Token叠加训练技术解析:预训练提速2.5倍,零改架构、零推理负担

摘要:针对大模型预训练算力成本高、迭代速度慢的行业痛点,Nous Research提出TST(Token Superposition Training)词元叠加训练方案。本文从技术原理、实现逻辑、实验数据、消融实验、落地优劣全方位拆解,带你看懂这款零侵入、高收益的预训练提效新方案。

关键词:大模型预训练、TST、Token叠加、预训练提速、算力降本、MCE损失

**1.**前言

大模型预训练是AI研发的核心成本瓶颈。传统Next-Token Prediction(NTP)范式全程采用逐Token精细化训练,在训练早期存在严重的算力冗余。现有主流提效方案(MoE、稀疏注意力、MTP)均存在工程复杂度高、推理适配成本大的问题,难以快速落地。

为此,Nous Research团队提出TST 词元叠加训练法,仅修改训练循环逻辑,不改动模型架构、分词器、优化器与训练数据,实现单位FLOPs下数据吞吐最大化,在10B MoE模型上实现2.5倍预训练提速,算力成本降低60%以上。

2. TST****核心技术原理

TST采用粗训 + 精训两阶段渐进式训练,核心是输入词元压缩+多热交叉熵监督,全程无新增复杂模块。

2.1****阶段一:词元叠加粗训阶段

将原始序列长度为L的文本,按固定包大小s,分割为若干个包含s个连续Token的词元包。对每个词元包内的Token嵌入向量做均值处理,完成输入表征压缩:

核心代码逻辑(PyTorch极简实现):

|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| python # TST输入侧词元叠加核心逻辑 if superposition_bag_size > 1: bs, seq = inputs.shape # 重塑维度,拆分词元包 inputs = inputs.reshape(bs, seq // superposition_bag_size, superposition_bag_size) # 对包内嵌入取均值,生成叠加词元 embed = embed.mean(dim=-2) |

输出侧放弃传统单Token交叉熵,采用MCE 多热交叉熵损失函数,对词元包内所有Token做平均损失计算,让模型学习局部Token分布特征,而非单一词序,大幅提升监督信号密度。

2.2****阶段二:标准恢复精训阶段

当训练步数达到总步数的60%-80%(最优区间:r=0.2~0.4),关闭词元叠加机制,回归原生NTP自回归训练。修复粗训阶段丢失的局部词序信息,补齐模型生成精度,保证最终推理模型与传统训练模型完全一致。

**3.**核心优势:区别于传统提效方案

|-------------|-----------|---------|-------|--------------|
| 优化方案 | 改造范围 | 推理成本 | 工程复杂度 | 核心原理 |
| MoE稀疏架构 | 模型架构、并行逻辑 | 增加推理复杂度 | 极高 | 减少单Token激活参数 |
| MTP多Token预测 | 输出头、损失逻辑 | 轻微增加负担 | 中高 | 单位置预测多Token |
| TST词元叠加训练 | 仅训练循环 | 零成本 | 极低 | 粗粒度学习+精细化修正 |

**4.**实验数据验证

团队覆盖多尺度模型完成验证,核心结论如下:

  1. 小模型(270M/600M):同等算力下,TST训练损失更低,下游分类、理解任务指标全面超越基线;

  2. 3B稠密模型:20k步TST训练效果,匹配36k步基线训练精度,算力利用率大幅提升;

  3. 10B-A1B MoE模型(最优收益):算力耗时从12311 B200-h降至4768 B200-h,算力成本降低 61.3%,四大零样本评测指标全部正向提升。

**5.**消融实验与机制分析

消融实验证明,TST的收益来自输入、输出双机制叠加

  • 仅输入叠加:压缩表征、降低训练噪声,提升数据吞吐;

  • 仅输出MCE损失:强化局部语义监督,优化梯度更新;

  • 完整TST方案:双机制协同,收益近似叠加,效果最优。

**6.**局限性与落地建议

  1. 适用边界:算力受限场景收益显著,数据稀缺场景不推荐使用(加速数据消耗);

  2. 超参建议:常规模型包大小s取6-8,百亿级大模型最优s=16,叠加训练比例r固定0.2-0.4即可稳定收益;

  3. 落地场景:垂直行业小模型、稠密模型、轻量化MoE模型预训练迭代。

**7.**总结

TST是当前性价比最高的大模型预训练优化方案之一,以极低的工程改造成本,实现了算力成本断崖式下降。无需重构架构、无需适配推理、无需海量调参,完美适配中小团队快速迭代、垂直模型批量训练的需求,将成为未来大模型预训练的标配优化策略。

相关推荐
孙高飞1 小时前
AI 驱动 UI 自动化的完整 DEOM 工程下载与详解
人工智能·ui·自动化
狒狒热知识1 小时前
2026软文营销行业规范化发展报告:优质平台甄选标准与企业投放策略
人工智能
海盗12341 小时前
AI科技周刊:2026年5月中旬大模型竞争白热化
人工智能·科技·ai
刘一说1 小时前
AI科技热点日报 | 2026年5月16日
人工智能·科技
逆境不可逃1 小时前
Hello-Agents 第一部分总结:从智能体概念到大语言模型基础
人工智能·语言模型·自然语言处理
littlebigbar1 小时前
亲身体验AI智能体在实际项目中展现的核心能力
人工智能·selenium·测试工具
Android出海1 小时前
2026主流AI工具对比:ChatGPT、Gemini、Claude、Grok深度分析与选择
人工智能·ai·chatgpt·claude·grok·ai工具·gemini
霍格沃兹测试学院-小舟畅学1 小时前
AI 测试用例审核 Skill:把用例评审从“凭经验”变成“可评分”
人工智能·测试用例
凌风工具箱1 小时前
告别流量焦虑|凌风工具箱一键开启流量加速,适配 TEMU/Shein/TK 全平台
大数据·人工智能