scaling laws for neural language models

关于scaling law 的正确认识 - 知乎最近scaling law 成了最大的热词。一般的理解就是,想干大模型,清洗干净数据,然后把数据tokens量堆上来,然后搭建一个海量H100的集群,干就完了。训练模型不需要啥技巧,模型结构也没啥好设计的,对算法精度影响...https://zhuanlan.zhihu.com/p/684955373对于基于transformer的语言模型,假设模型的参数量为N,数据集tokens个数为D(token数),那么模型的计算量C约为6ND,模型的计算量C一定后,模型的性能即精度就基本确定。语言模型的影响因素只有N和D,跟模型的具体结构诸如层数,深度,attention头个数基本无关,相关性非常小,性能在2%的区间内。

scaling laws的前提是标准的transformer结构。

相关推荐
longvoyage1 分钟前
MindSpore社区活动:在对抗中增强网络
网络·人工智能·深度学习
科士威传动3 分钟前
如何为特定应用选型滚珠导轨?
人工智能·科技·机器人·自动化·制造
imbackneverdie8 分钟前
什么是Token?——理解自然语言处理中的基本单位
数据库·人工智能·自然语言处理·aigc·token
ai_xiaogui9 分钟前
Stable Diffusion Web UI 整合包一键安装教程:Windows/Mac零基础部署AI绘画工具
人工智能·ai作画·stable diffusion·一键整合包·ai生图神器·ai生图和动作迁移
小马过河R10 分钟前
浅谈AI辅助编码从氛围编程Vibe Coding到基于spec规范驱动开发
人工智能·驱动开发·ai编程
Useasy_JIJIANYUN12 分钟前
极简云UE智能体:从 “售前营销” 到 “服务提效”,这套产品逻辑到底强在哪?
人工智能
3D打印资源库14 分钟前
官宣:汇纳科技收购华速实业;融速科技完成A+轮融资;3D打印单季破40亿美元|库周报
人工智能·科技·3d
独自归家的兔15 分钟前
大模型通义千问3-VL-Plus - QVQ 视觉推理模型
java·人工智能·intellij-idea
中华网商业18 分钟前
从制造到智造!格力金湾领航级智能工厂的升级路径与经验启示
人工智能·制造
数据的世界0120 分钟前
重构智慧书-第12条:自然与人工的辩证之美
人工智能