scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
Aipollo几秒前
Harness Engineering驾驭工程:给AI套上缰绳的艺术
人工智能·ai
yindeshuiketang1 分钟前
《AI驱动上下五千年:从结绳记事到智能纪元》-结绳记事
人工智能
Rick19931 分钟前
LangChain核心知识点
人工智能·langchain·agent
黎阳之光4 分钟前
应急管理一张图|黎阳之光全域实景技术,支撑突发事件快速响应
大数据·人工智能
黎阳之光4 分钟前
数智孪生,全景可视——黎阳之光透明仓库,重构智慧仓储新范式
大数据·人工智能·算法·安全·数字孪生
在繁华处5 分钟前
从零搭建轻灵(二):Agent Loop 核心循环
人工智能
美港探案5 分钟前
DAA横空出世!百度按下AI时代格局重绘键
人工智能·百度
GISer_Jing7 分钟前
BOSS上AIAgent|前端AI所需要技能
前端·人工智能·ai·前端框架
minhuan8 分钟前
基于OpenCV人脸检测与DeepFace视觉识别实现情绪抓拍、数据分析智能研判系统.178
人工智能·大模型应用·opencv人脸检测·deepface视觉识别·情绪健康识别
瑞华丽PLM9 分钟前
瑞华丽 AI 智能体赋能研发数字化落地实战
人工智能·cae·工业软件·国产软件·国产plm·瑞华丽plm·瑞华丽