大模型快速入门-01大模型常识

文章目录


定义

目前关于大模型(Large Models)并没有统一的定义,通常是指参数规模庞大(顶尖大模型参数可达万亿)、训练数据庞大、能力强大的深度神经网络模型。

1)参数规模庞大

大模型的参数量通常在10亿以上,目前顶尖模型的参数规模已达万亿级别。

2)训练数据庞大

Common Crawl是大模型中的大语言模型预训练阶段的数据来源之一,它是一个公共网络爬虫项目,每隔1-2个月会发布一次主爬取的文件,包含了部分网页的快照,是互联网数据的子集。

WET是对网页内容进行抽取和清洗之后的数据,通常作为大模型预训练数据集的构建起点。完整的数据集可能包含若干次主爬取的WET,还可能包含其它渠道获取的数据。

3)能力强大

传统模型针对特定任务设计,泛化能力有限,通常只能完成单一任务 ,如:情感分析、实体标注等。

而大模型具备强大的跨任务泛化能力,单一大模型可以解决大多数传统模型可以完成的任务。

为什么会出现大模型?

大模型的出现并非偶然,而是数据、算力与模型架构协同演进的结果。

1)数据够多:训练范式的改变使得训练数据规模获得了数量级上的跃迁

传统监督学习高度依赖人工标注数据(对原始数据进行标记、分类、注释或结构化的过程,便于机器可识别和理解),获取成本高、规模受限。

  1. 分类标注:为整张图像分配类别标签(人工标注为"猫"、"狗")
  2. 命名实体识别:标注文本中的人名、地名、组织名等实体

大模型 主要采用自监督学习范式(如"预测下一个token"),能够直接利用海量的未标注文本与多模态数据,可用数据规模获得了数量级上的跃迁

如Qwen3的预训练阶段使用了约36T个token(近似理解为词)的语料,这一数据规模远超传统机器学习时代的训练数据总量。

2)算力够强:GPU/TPU等并行计算设备性能发展与分布式训练成熟

上图的纵轴是32位浮点数的计算性能(可能是FP32或BF32,取最大)。

  • 深度学习训练本质是大规模矩阵运算 ,这类计算具有高度并行性,与GPU/TPU的硬件架构天然契合。
  • 与此同时,数据并行、张量并行、流水线并行等分布式训练体系日趋成熟,使得跨节点、跨集群训练超大规模参数模型成为可能。

3)架构合理:Transformer架构的出现

Transformer架构摒弃了强序列依赖的递归计算方式,支持并行 计算。并且在模型规模、数据规模、训练步数 (计算量)提升时展现出稳定的性能收益(即良好的"可扩展性",如下图所示,图中的Test Loss表示损失函数的值,用于衡量模型性能,损失越小模型越强)。

4)总结

综上,数据规模的跃迁、算力基础设施的发展,和Transformer架构优异的可扩展性,共同推动了模型规模和性能的持续膨胀,迎来了"大模型时代"。

大模型计量单位

在大语言模型(LLM)及更一般的大模型研究中,通常从参数规模、训练数据集规模和计算规模三个维度来度量模型的规模。

1)参数规模(Parameters Scale)

大模型参数规模通常以B为单位,B是Billion的缩写,即10亿,10⁹。

如Qwen3-235B模型参数量为235B,即2350亿。

2)训练数据集规模

多模态模型的数据集格式五花八门,无法用统一单位度量,此处只讨论LLM。

LLM的训练是在文本语料上进行的,语料处理的第一步是分词为一系列token,所以通常用token的数量衡量LLM训练数据集规模。

1B token=10⁹ token=10亿token

1T token=10³ B token=10¹² token=1万亿token

LLM的数据集规模通常用T token作为单位,如Qwen3预训练数据集规模为36Ttoken。

3)计算规模

计算规模是指大模型训练消耗的计算量。

大模型是一系列浮点数的组合,训练过程涉及大量浮点数运算,因此计算规模通常用FLOPs(Floating Point Operations,浮点运算次数)来衡量。

1FLOPs=1次浮点运算

1PFLOPs=10¹⁵ FLOPs

1EFLOPs=10³ PFLOPs=10¹⁸ FLOPs

现代顶尖的基础模型(LLM)通常用EFLOPs作为单位。计算规模通常不公开。

计算规模和硬件平台无关,描述模型理论上做了多少计算。

4)算力

算力是指"能算多快",是指计算设备(显卡)单位时间内完成浮点运算的能力。单位通常是FLOPS(Floating Point Operations Per Second,每秒钟完成的浮点运算次数)。

现代GPU性能强大,通常用PFLOPS或TFLOPS作为算力单位。

1P = 10³T = 10⁶G = 10⁹M = 10¹²K = 10¹⁵

1PFLOPS = 10¹⁵FLOPS

1TFLOPS = 10¹²FLOPS

浮点数有多种规格,如FP64、FP32、TF32等,同一款显卡在不同浮点数规格下的算力不同,因此在描述算力时,通常需要标注对应的浮点数规格

如英伟达B200显卡的单卡

  • TF32算力为2.5PFLOPS
  • FP32算力为80TFLOPS
  • FP64算力为40TFLOPS

随着硬件性能的发展,目前顶尖显卡的算力已迈入PFLOPS级别。