scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
新加坡内哥谈技术8 分钟前
机器人出租车与郊区生活
人工智能·生活
CareyWYR10 分钟前
每周AI论文速递(251117-251121)
人工智能
专注数据的痴汉11 分钟前
「数据获取」《中国农业年鉴》(1949-2022)
人工智能
Blossom.11817 分钟前
RLHF的“炼狱“突围:从PPO到DPO的工业级对齐实战
大数据·人工智能·分布式·python·算法·机器学习·边缘计算
Light601 小时前
MCP协议:CAD设计的“AI大脑”革命——从图纸到智能决策的全链路跃迁
人工智能·工业4.0·mcp协议·cad智能化·ai设计自动化
鹿鸣天涯1 小时前
智能世界2035:探索未知,跃见未来
人工智能
火星技术1 小时前
【 AI 智能换装开源】
人工智能
zyplayer-doc1 小时前
目录支持批量操作,文档增加可见范围、锁定功能,PDF查看优化,zyplayer-doc 2.5.8 发布啦!
数据库·人工智能·pdf·编辑器·飞书·石墨文档
Dandelion____z1 小时前
AI 驱动业务的致命风险:如何用架构设计守住安全底线?
java·大数据·人工智能·spring boot·aigc·jboltai
黑客思维者1 小时前
为什么大语言模型需要海量训练数据?
人工智能·语言模型·自然语言处理