scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
码农胖大海5 分钟前
AI额度不够用的解决方案
人工智能
后端小肥肠24 分钟前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao26 分钟前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理
程序员cxuan1 小时前
一句话,让你用上 GPT-5.6
人工智能·后端·程序员
机器之心2 小时前
AI圈刚开始谈Loop Engineering,两位95后博士已经盯上了人类闭环数据
人工智能·openai
澄旭2 小时前
一文讲清 MCP:AI 应用连接外部世界的标准协议
人工智能
机器之心2 小时前
不只DeepSeek,阶跃等开源JetSpec:大模型解码提速近10倍
人工智能·openai
moMo2 小时前
当LLM学会"递纸条",AI是如何调用工具的
人工智能
拾年2752 小时前
大模型的"聪明"从哪来?聊聊 AI 数据集的那些事儿
人工智能·深度学习·机器学习