scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
石榴树下的七彩鱼7 分钟前
OCR 识别不准确怎么办?模糊 / 倾斜 / 反光图片优化实战(附完整解决方案 + 代码示例)
图像处理·人工智能·后端·ocr·api·文字识别·图片识别
菱玖22 分钟前
Transformer 架构详解
人工智能·深度学习·transformer
liangdabiao23 分钟前
开源AI拼豆大升级 - 一键部署cloudflare page - 全免费 web和小程序
前端·人工智能·小程序
SimpleLearingAI25 分钟前
RMSNorm:大模型的隐秘功臣?
人工智能·深度学习
burning_maple29 分钟前
AI 工程实战指南:从零开始构建 AI 应用
开发语言·人工智能
桃小桃说科技30 分钟前
基于深度学习的障碍物检测系统(YOLOv12完整代码+论文示例+多算法对比)
人工智能·python·目标检测·机器视觉·障碍物检测
郝学胜-神的一滴31 分钟前
神经网络参数初始化:从梯度失控到模型收敛的核心密码
人工智能·pytorch·深度学习·神经网络·机器学习·软件构建·软件设计
爱写代码的汤二狗32 分钟前
让 AI 稳定交付全栈项目:我的 Claude Code + OpenSpec + Superpowers 三件套实战
人工智能·claude
今天你TLE了吗34 分钟前
LLM到Agent&RAG——AI概念概述 第一章:大模型
java·人工智能·语言模型·大模型
mit6.82436 分钟前
ai db|面试7788
人工智能