scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
QuestLab1 分钟前
【第20期】2026年4月23日 AI日报
运维·服务器·人工智能
思绪无限8 分钟前
YOLOv5至YOLOv12升级:快递包裹检测系统的设计与实现(完整代码+界面+数据集项目)
人工智能·python·深度学习·目标检测·计算机视觉·快递包裹检测
学习论之费曼学习法9 分钟前
AI 入门 30 天挑战 - Day 18 费曼学习法版 - 图像分割基础
人工智能·学习
花千树-01019 分钟前
AI Agent 模型成本控制实战:Token 消耗优化与监控技巧
人工智能·agent·token·function call·ai agent·mcp·agent memory
千寻girling20 分钟前
机器学习 | 逻辑回归 | 尚硅谷学习
java·人工智能·python·学习·算法·机器学习·逻辑回归
Mr数据杨21 分钟前
AIGC工具箱安装与使用
人工智能·aigc·语音识别
eve杭23 分钟前
AI时代工程师superpowers进化论
人工智能
豆豆30 分钟前
2026自助建站平台对比:5大主流方案(SaaS/CMS/AI)优缺点与费用解析
人工智能·cms·建站系统·自助建站·内容管理系统·网站管理系统·站群cms
Elastic 中国社区官方博客33 分钟前
Jina embeddings v3 现已在 Gemini Enterprise Agent Platform Model Garden 上可用
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina
wukangjupingbb35 分钟前
AI驱动药物研发中的单模型幻象
人工智能