scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
vvzh202613 小时前
2026南京初创企业GEO知识库落地思路:一站式结构化知识库搭建落地参考
人工智能
澄旭13 小时前
一篇讲清 Agent Skills:把经验变成可调用的能力
人工智能
合合技术团队13 小时前
2026中国图像图形大会召开,合合信息推出多模态可信AI鉴伪系统
图像处理·人工智能·aigc鉴伪
俊哥V13 小时前
AI一周事件 · 2026-05-27 至 2026-06-02
人工智能·ai
G***技13 小时前
极寒也能跑AI?LM2-100-V0算力模组为电网巡检终端注入AI动能
人工智能
行业研究员14 小时前
腾讯云AgentMemory产品介绍与核心痛点解决
人工智能·机器学习·腾讯云·agentmem
钓了猫的鱼儿14 小时前
基于深度学习+AI的蚕病害目标检测与预警系统(Python源码+数据集+UI可视化界面+YOLOv11训练结果)
人工智能·深度学习·目标检测
MY_TEUCK14 小时前
【MY_TRUCK - AI 应用】2026 AI 编程工具全景:Copilot 线与 Cursor 线两大主流、行业现状与人群选型
人工智能·ai·copilot·ai编程
janeysj14 小时前
langgraph学习笔记(一)
人工智能·langchain
阿里云大数据AI技术14 小时前
EMR Serverless Spark 数据湖上新能力:一条 SQL 实现标量向量混合检索
人工智能·sql·spark