scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
Xxtaoaooo15 小时前
【开源】灵魂讲述者:基于魔珐星云的AI交互式分支叙事应用,免费体验啦!
人工智能·开源·ai数字人·魔法星云·小说创作
2401_8653825015 小时前
AI询价与传统询价平台的区别
人工智能·信息化项目·政务信息化·信息化造价
liu_zhiyi15 小时前
生成式 AI 交互规范:提示词工程(Prompt Engineering)技术指南
人工智能·prompt·交互
前端不太难15 小时前
开源驱动的 AI 构建与治理
人工智能·开源
QYR_1115 小时前
2026年全球寡核苷酸合成用固相载体行业深度洞察与展望
大数据·人工智能
CS创新实验室15 小时前
CS实验室行业报告:自动驾驶领域就业分析报告
人工智能·自动驾驶·unix
泰迪智能科技0115 小时前
分享|人工智能方向职业技术培训:从入门到进阶,11个方向可选
人工智能
慧知AI15 小时前
【技术深度】苹果换帅后的端侧AI技术架构详解
人工智能
coderyi16 小时前
LLM Agent 浅析
前端·javascript·人工智能