scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
网络安全研发随想16 小时前
AI Code编辑器到底是怎么做出来的?
人工智能·编辑器
2501_9418372616 小时前
龙虾性别分类与未定义类别识别模型训练 tood_r50_fpn_ms-2x_coco实现详解_1
人工智能·分类·数据挖掘
彩虹糖_haha16 小时前
多线程并发处理模式详解
人工智能·计算机视觉
Alter123016 小时前
海南椰子鸡和宁夏滩羊的拼多多“漂流”:透视地域特产的数字进化论
大数据·人工智能
柠萌f16 小时前
《当投放预算跑不动:易元AI如何解决电商素材产能的系统性瓶颈》
人工智能
小陈phd16 小时前
langGraph从入门到精通(七)——基于 LangGraph 的结构化数据AI 代理自动入库实战
人工智能
汽车仪器仪表相关领域16 小时前
全组分精准捕获,台架研发中枢:MEXA-ONE发动机尾气测量装置项目实战全景
大数据·人工智能·功能测试·单元测试·压力测试·可用性测试
(; ̄ェ ̄)。16 小时前
机器学习入门(八)过拟合、欠拟合、L1、L2正则化
人工智能·机器学习
qyresearch_16 小时前
全球干燥水果和蔬菜市场:健康消费浪潮下的增长引擎与产业重构
大数据·人工智能·物联网
没学上了16 小时前
Vlm-RT-DETR网络模型部署推理
人工智能