scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
好奇龙猫7 分钟前
人工智能学习-AI-MIT公开课-第三节:推理:目标树与基于规则的专家系统-笔记
人工智能·笔记·学习
正经人_x9 分钟前
学习日记28:Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks
人工智能·深度学习·cnn
好奇龙猫9 分钟前
【AI学习-comfyUI学习-第二十节-controlnet线稿+softedge线稿处理器工作流艺术线处理器工作流-各个部分学习】
人工智能·学习
陈橘又青15 分钟前
vLLM-Ascend推理部署与性能调优深度实战指南:架构解析、环境搭建与核心配置
人工智能·后端·ai·架构·restful·数据·vllm
世优科技虚拟人16 分钟前
AI数字人企业产品图谱解析:2D/3D数字人AI交互开发技术指南
人工智能·大模型·人机交互·数字人·智能交互
LiFileHub21 分钟前
2025 AI驱动产业转型全景手册:从技术破局到价值重生(附8大转型案例)
人工智能
python机器学习ML24 分钟前
论文复现-以动物图像分类为例进行多模型性能对比分析
人工智能·python·神经网络·机器学习·计算机视觉·scikit-learn·sklearn
YANQ66225 分钟前
14.1 人脸的三维重构(PRNet算法)
人工智能·重构
风途知识百科29 分钟前
并网/分布式光伏气象站
人工智能·分布式
诸葛务农35 分钟前
神经网络信息编码技术:与人脑信息处理的差距及超越的替在优势和可能(下)
人工智能·神经网络