scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
Master_oid7 分钟前
机器学习21:可解释机器学习(Explainable Machine Learning)(上)
人工智能·机器学习
MobotStone16 分钟前
边际成本趋近于零:如何让AI智能体"说得清、讲得明"
人工智能·架构
AI大模型学徒25 分钟前
NLP基础(一)_简介
自然语言处理·nlp
新智元32 分钟前
李飞飞「世界模型」正式开放,人人可用! Pro 版首月仅 7 元
人工智能·openai
新智元34 分钟前
GPT-5.1 凌晨突袭,奥特曼听劝!全网呼唤的人味回来了
人工智能
钅日 勿 XiName40 分钟前
一小时速通Pytorch之自动梯度(Autograd)和计算图(Computational Graph)(二)
人工智能·pytorch·python
拓端研究室1 小时前
专题:2025中国医疗器械出海现状与趋势创新发展研究报告|附160+份报告PDF、数据、可视化模板汇总下载
大数据·人工智能·pdf
算家计算1 小时前
PaddleOCR-VL-vLLM-OpenAI-API使用教程来了!手把手教你搞定文档解析
人工智能·开源
算家计算1 小时前
GPT-5.1深夜发布却无惊喜?从GPT-5.1看大模型发展瓶颈
人工智能·chatgpt·openai
KWTXX1 小时前
组合逻辑和时序逻辑的区别
java·开发语言·人工智能