scaling laws for neural language models

Kun Li2024-04-12 20:26

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是，想干大模型，清洗干净数据，然后把数据tokens量堆上来，然后搭建一个海量H100的集群，干就完了。训练模型不需要啥技巧，模型结构也没啥好设计的，对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型，假设模型的参数量为N，数据集tokens个数为D（token数），那么模型的计算量C约为6ND，模型的计算量C一定后，模型的性能即精度就基本确定。语言模型的影响因素只有N和D，跟模型的具体结构诸如层数，深度，attention头个数基本无关，相关性非常小，性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

上一篇：Node写一个掘金自动签到脚本

下一篇：阿里通义千问开源 320 亿参数模型；文字和音频自动翻译成手语Hand Talk拉近人与人的距离

热门推荐

01GitHub 镜像站点 02React CVE-2025-55182漏洞排查与修复指南 03【超详细教程】手把手教你从微软官网免费下载Windows 10官方原版ISO镜像（2025最新版）04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05BongoCat - 跨平台键盘猫动画工具 06UV安装并设置国内源 07智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 08打造高效订单处理！ZKmall开源商城的统一履约中心架构解析 09本地部署阿里最新开源的Z-Image 10Linux下V2Ray安装配置指南