scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
Traving Yu3 分钟前
向量数据库Milvus
数据库·人工智能·milvus
keineahnung23454 分钟前
PyTorch SymNode 為何找不到方法實作?──sizes_strides_methods 動態安裝機制解析
人工智能·pytorch·python·深度学习
苏生十一_Nojambot4 分钟前
AI浏览器——Tabbit使用教程
人工智能
AI科技星5 分钟前
【无标题】
人工智能·决策树·机器学习·数据挖掘·机器人
一点一木8 分钟前
2026 终端 AI 编码 Agent 六大工具深度横评
前端·人工智能·claude
qq_4112624211 分钟前
四博 AI 双目智能音箱方案:四路触控、震动反馈、姿态感应、语音克隆和专属知识库全拉满
人工智能·智能音箱
沪漂阿龙13 分钟前
面试题:卷积神经网络(CNN)是什么?核心层、卷积核、池化、1×1 卷积、VGG、ResNet 一文讲透
人工智能·神经网络·cnn
RichExplorer15 分钟前
(1)从零开始搭建具身智能——概念理解与系统结构
人工智能·机器人
OCR_1337162127520 分钟前
护照OCR校验位技术解析:从算法逻辑到工程落地,筑牢证件核验安全线
人工智能·算法
IT_陈寒20 分钟前
用了Vue的动态组件之后,我被坑得找不着北
前端·人工智能·后端