scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
vvzh20265 分钟前
2026南京初创企业GEO知识库落地思路:一站式结构化知识库搭建落地参考
人工智能
澄旭14 分钟前
一篇讲清 Agent Skills:把经验变成可调用的能力
人工智能
合合技术团队28 分钟前
2026中国图像图形大会召开,合合信息推出多模态可信AI鉴伪系统
图像处理·人工智能·aigc鉴伪
俊哥V29 分钟前
AI一周事件 · 2026-05-27 至 2026-06-02
人工智能·ai
G***技29 分钟前
极寒也能跑AI?LM2-100-V0算力模组为电网巡检终端注入AI动能
人工智能
行业研究员29 分钟前
腾讯云AgentMemory产品介绍与核心痛点解决
人工智能·机器学习·腾讯云·agentmem
钓了猫的鱼儿32 分钟前
基于深度学习+AI的蚕病害目标检测与预警系统(Python源码+数据集+UI可视化界面+YOLOv11训练结果)
人工智能·深度学习·目标检测
MY_TEUCK34 分钟前
【MY_TRUCK - AI 应用】2026 AI 编程工具全景:Copilot 线与 Cursor 线两大主流、行业现状与人群选型
人工智能·ai·copilot·ai编程
janeysj37 分钟前
langgraph学习笔记(一)
人工智能·langchain
阿里云大数据AI技术40 分钟前
EMR Serverless Spark 数据湖上新能力:一条 SQL 实现标量向量混合检索
人工智能·sql·spark