scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
春日见8 分钟前
RL精华知识
人工智能·机器学习
东方佑30 分钟前
波动力学语言模型(Wave Dynamics Language Model, WDLM)
人工智能·语言模型·自然语言处理
John_ToDebug38 分钟前
CLAUDE.md 与 Skills 的区别:一张表彻底分清
人工智能·经验分享·ai
程序员cxuan39 分钟前
我花了两天时间,终于把 Codex 额度掉太快的问题整明白了!!
人工智能·后端·程序员
IT_陈寒40 分钟前
Vue这个动态响应坑把我整不会了
前端·人工智能·后端
feasibility.1 小时前
ROS2+Gazebo+VLM服务:纯仿真环境下的具身智能闭环系统| 大脑-小脑分离控制
人工智能·机器人·ros·仿真·具身智能·vla·vlm
lqqjuly1 小时前
自动驾驶仿真平台:理论、架构与实践
人工智能·机器学习·自动驾驶
“码”力全开1 小时前
解耦异构算力与多协议接入:基于Docker与源码交付的开源企业级GB28181/RTSP边缘计算AI视频管理平台架构深度解析
人工智能·docker·开源
J2虾虾1 小时前
Spring AI Alibaba文档
java·人工智能·spring
Mr数据杨1 小时前
【CanMV K210】传感器实验 U 型光电传感器遮挡检测与 LED 提示
人工智能·硬件开发·canmv k210