scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
Saniffer_SH2 分钟前
【每日一题】笔记本电脑上从U盘拷贝文件到M.2 SSD过程中为什么链路还会偶尔进入L1.2低功耗?
服务器·网络·人工智能·驱动开发·单片机·嵌入式硬件·电脑
lusasky2 分钟前
AgentScope的主要开源竞品框架对比
人工智能·开源
高光视点2 分钟前
共话 AI Agent 规模化落地!快鹭科技受邀参与福田 “益企 LINK” 沙龙圆桌讨论
人工智能·科技
mys55182 分钟前
杨建允:AI搜索优化对全链路营销的影响
人工智能·aigc·geo·ai搜索优化·ai引擎优化
汤姆yu3 分钟前
基于深度学习的电动车头盔佩戴检测系统
人工智能·深度学习
木头左5 分钟前
强化学习结合LSTM的量化交易策略奖励函数与入参关联
人工智能·rnn·lstm
数字化转型20255 分钟前
金风科技 vs 远景能源:风机产品核心差异分析【基本面分析】
人工智能
聚铭网络6 分钟前
聚铭网络入选《ISC.AI 2025创新能力全景图谱》6大细分领域
网络·人工智能
Deepoch8 分钟前
硬件赋能智能:Deepoc开发板如何成为无人机自主飞行的核心引擎
人工智能·无人机·具身模型·deepoc
综合热讯10 分钟前
为数字时代的绘画学习建立清晰路径:四川涂色教育科技有限公司的教学实践
人工智能