大模型快速入门-01大模型常识

文章目录

定义
为什么会出现大模型？
大模型计量单位
- [1）参数规模（Parameters Scale）](#1）参数规模（Parameters Scale）)
- 2）训练数据集规模
- 3）计算规模
- 4）算力

定义

目前关于大模型（Large Models）并没有统一的定义，通常是指参数规模庞大（顶尖大模型参数可达万亿）、训练数据庞大、能力强大的深度神经网络模型。

1）参数规模庞大

大模型的参数量通常在10亿以上，目前顶尖模型的参数规模已达万亿级别。

2）训练数据庞大

Common Crawl是大模型中的大语言模型预训练阶段的数据来源之一，它是一个公共网络爬虫项目，每隔1-2个月会发布一次主爬取的文件，包含了部分网页的快照，是互联网数据的子集。

WET是对网页内容进行抽取和清洗之后的数据，通常作为大模型预训练数据集的构建起点。完整的数据集可能包含若干次主爬取的WET，还可能包含其它渠道获取的数据。

3）能力强大

传统模型针对特定任务设计，泛化能力有限，通常只能完成单一任务 ，如：情感分析、实体标注等。

而大模型具备强大的跨任务泛化能力，单一大模型可以解决大多数传统模型可以完成的任务。

为什么会出现大模型？

大模型的出现并非偶然，而是数据、算力与模型架构协同演进的结果。

1）数据够多：训练范式的改变使得训练数据规模获得了数量级上的跃迁

传统监督学习高度依赖人工标注数据（对原始数据进行标记、分类、注释或结构化的过程，便于机器可识别和理解），获取成本高、规模受限。

分类标注：为整张图像分配类别标签（人工标注为"猫"、"狗"）
命名实体识别：标注文本中的人名、地名、组织名等实体

而大模型 主要采用自监督学习范式（如"预测下一个token"），能够直接利用海量的未标注文本与多模态数据，可用数据规模获得了数量级上的跃迁 。

如Qwen3的预训练阶段使用了约36T个token（近似理解为词）的语料，这一数据规模远超传统机器学习时代的训练数据总量。

2）算力够强：GPU/TPU等并行计算设备性能发展与分布式训练成熟

上图的纵轴是32位浮点数的计算性能（可能是FP32或BF32，取最大）。

深度学习训练本质是大规模矩阵运算 ，这类计算具有高度并行性，与GPU/TPU的硬件架构天然契合。
与此同时，数据并行、张量并行、流水线并行等分布式训练体系日趋成熟，使得跨节点、跨集群训练超大规模参数模型成为可能。

3）架构合理：Transformer架构的出现

Transformer架构摒弃了强序列依赖的递归计算方式，支持并行计算。并且在模型规模、数据规模、训练步数 （计算量）提升时展现出稳定的性能收益（即良好的"可扩展性"，如下图所示，图中的Test Loss表示损失函数的值，用于衡量模型性能，损失越小模型越强）。

4）总结

综上，数据规模的跃迁、算力基础设施的发展，和Transformer架构优异的可扩展性，共同推动了模型规模和性能的持续膨胀，迎来了"大模型时代"。

大模型计量单位

在大语言模型（LLM）及更一般的大模型研究中，通常从参数规模、训练数据集规模和计算规模三个维度来度量模型的规模。

1）参数规模（Parameters Scale）

大模型参数规模通常以B为单位，B是Billion的缩写，即10亿，10⁹。

如Qwen3-235B模型参数量为235B，即2350亿。

2）训练数据集规模

多模态模型的数据集格式五花八门，无法用统一单位度量，此处只讨论LLM。

LLM的训练是在文本语料上进行的，语料处理的第一步是分词为一系列token，所以通常用token的数量衡量LLM训练数据集规模。

1B token=10⁹ token=10亿token

1T token=10³ B token=10¹² token=1万亿token

LLM的数据集规模通常用T token作为单位，如Qwen3预训练数据集规模为36Ttoken。

3）计算规模

计算规模是指大模型训练消耗的计算量。

大模型是一系列浮点数的组合，训练过程涉及大量浮点数运算，因此计算规模通常用FLOPs（Floating Point Operations，浮点运算次数）来衡量。

1FLOPs=1次浮点运算

1PFLOPs=10¹⁵ FLOPs

1EFLOPs=10³ PFLOPs=10¹⁸ FLOPs

现代顶尖的基础模型（LLM）通常用EFLOPs作为单位。计算规模通常不公开。

计算规模和硬件平台无关，描述模型理论上做了多少计算。

4）算力

算力是指"能算多快"，是指计算设备（显卡）单位时间内完成浮点运算的能力。单位通常是FLOPS（Floating Point Operations Per Second，每秒钟完成的浮点运算次数）。

现代GPU性能强大，通常用PFLOPS或TFLOPS作为算力单位。

1P = 10³T = 10⁶G = 10⁹M = 10¹²K = 10¹⁵

1PFLOPS = 10¹⁵FLOPS

1TFLOPS = 10¹²FLOPS

浮点数有多种规格，如FP64、FP32、TF32等，同一款显卡在不同浮点数规格下的算力不同，因此在描述算力时，通常需要标注对应的浮点数规格 。

如英伟达B200显卡的单卡

TF32算力为2.5PFLOPS
FP32算力为80TFLOPS
FP64算力为40TFLOPS

随着硬件性能的发展，目前顶尖显卡的算力已迈入PFLOPS级别。