scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
npupengsir17 分钟前
nano vllm代码详解
人工智能·算法·vllm
CyanMind24 分钟前
IsaacLab 训练范式探索(一):让机器人拥有“记忆”的 RNN 策略
人工智能·rnn·机器人
翼龙云_cloud33 分钟前
阿里云渠道商:百炼模型选型指南 性能与成本全解析
人工智能·阿里云·云计算
chushiyunen35 分钟前
人工智能-语义校验deepEval笔记
人工智能·笔记
齐齐大魔王37 分钟前
智能语音处理(一)
人工智能·语音识别
Spliceㅤ40 分钟前
项目:基于qwen的点餐系统
开发语言·人工智能·python·机器学习·自然语言处理
李子琪。1 小时前
数字技术认证体系备考实践与职业效能研究
人工智能·经验分享
cd_949217211 小时前
告别硬床误区,梦百合以AI科技重塑正确睡眠观
大数据·人工智能·科技
janeysj1 小时前
安装windows本地OpenClaw并连接飞书
人工智能·飞书
RSFeegg1 小时前
【AI Agent 学习笔记task2】Day3 Hello-Agents 第二章:智能体发展史深度解读
人工智能·笔记·学习