scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
普通网友2 分钟前
Android Jetpack组件:WorkManager的使用
人工智能
CoderJia程序员甲7 分钟前
GitHub 热榜项目 - 日榜(2026-02-22)
人工智能·ai·大模型·github·ai教程
witAI1 小时前
**AI仿真人剧制作软件2025推荐,解锁沉浸式数字内容创作
人工智能·python
重生之我要成为代码大佬2 小时前
AI框架设计与选型
人工智能·langchain·大模型·llama·qwen
Dev7z2 小时前
原创论文:基于LSTM神经网络的共享单车需求预测系统设计与实现
人工智能·神经网络·lstm
光的方向_2 小时前
从原理到实践:深度解析Transformer架构——大模型时代的核心基石
人工智能·chatgpt·prompt·transformer
Jason_Honey22 小时前
【道通科技AI算法岗一面】
人工智能
星爷AG I2 小时前
12-8 人格判断(AGI基础理论)
人工智能·agi
Elastic 中国社区官方博客2 小时前
使用 Elastic 进行网络监控:统一网络可观测性
大数据·开发语言·网络·人工智能·elasticsearch·搜索引擎·全文检索