scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
love530love2 分钟前
【笔记】ComfyUI 启动时端口被占用(PermissionError [winerror 10013])解决方案
人工智能·windows·笔记·stable diffusion·aigc·端口·comfyui
算法与编程之美6 分钟前
PyTorch中torch.flatten()函数的用法
人工智能·pytorch·python·深度学习·机器学习
Biehmltym15 分钟前
【AI】02实现AI Agent全栈:十分钟,跑通Python调用 Gemini(大模型)的小型Web项目
人工智能·windows·python
深圳佛手16 分钟前
IVFFlat 与 HNSW 算法介绍与对比
人工智能·算法·机器学习
山海青风17 分钟前
人工智能基础与应用 - 数据处理、建模与预测流程 1 : 了解人工智能
人工智能·python
wxdlfkj23 分钟前
从硬件极限到算法补偿:构建微米级工件特征“在机测量”闭环系统的技术路径解析
人工智能·算法·机器学习
_codemonster39 分钟前
AI大模型入门到实战系列(十八)微调模型实现分类
人工智能·机器学习·分类
dagouaofei39 分钟前
2026 年工作计划汇报 PPT:多种 AI 方案对比评估
人工智能·python·powerpoint
墨染天姬43 分钟前
【AI】2025视频模型排行
人工智能·音视频
hengcaib1 小时前
美瑞莎携手未来数据集团:大健康赛道的 “数智化” 新探索
大数据·人工智能