一、大模型参数的核心定义
参数是大模型在训练过程中通过数据学习到的"可调整数值",是模型对语言规律、语义关系等知识的"数字化存储载体"。模型的预测/生成能力本质由参数决定------参数越多,模型能捕捉的语言模式越复杂,但计算成本也越高。
二、参数的具体含义与分类
1. 按功能划分:权重(Weight)与偏置(Bias)
-
权重(W):连接两个神经元/层的"强度系数",决定输入信息对输出的影响程度(如"猫"→"动物"的关联强度)。
-
偏置(b):神经元的"激活阈值",用于调整输出的基准值(避免仅依赖权重的线性组合)。
2. 按模型结构划分:Transformer核心层的参数
大模型(如GPT、LLaMA)基于Transformer架构,核心层参数包括:
-
自注意力层参数:Q/K/V矩阵(Query/Key/Value,用于将输入转换为查询、键、值向量)、注意力分数矩阵(计算词与词的关联度)。
-
前馈神经网络(FFN)参数:两层线性变换的权重与偏置(对注意力输出进行非线性加工)。
-
嵌入层参数:词嵌入矩阵(将离散词ID映射为连续向量)、位置嵌入矩阵(编码词的位置顺序)。
三、参数的作用机制:以"句子生成"为例
当模型生成句子(如输入"今天天气好,我想去____")时,参数通过以下步骤工作:
-
嵌入层:将输入词("今天""天气""好"...)转换为向量(依赖词嵌入矩阵的参数)。
-
自注意力层:通过Q/K/V矩阵计算"天气"与"好"的关联度(参数决定关联强度的权重),捕捉"天气好"的语义单元。
-
FFN层:对注意力输出加工,结合偏置参数调整激活阈值,强化"适合户外活动的场景"(如"公园""爬山")。
-
输出层:通过线性层参数将最终向量映射为词表概率,选出最可能的词("公园")。
四、直观举例:简化版语言模型(含参数计算)
为理解参数的实际形态,假设构建一个超简化的二元语言模型(仅处理长度为2的词序列,词表={我, 爱, 吃, 苹果}):
1. 模型结构与参数设置
-
任务:预测给定第一个词后,第二个词的概率(如输入"我",输出P(爱|我)、P(吃|我)等)。
-
核心层:嵌入层(词嵌入矩阵)+ 输出层(线性层)。
2. 具体参数示例
-
词嵌入矩阵(E):维度=词表大小×嵌入维度(假设嵌入维度=2)。
词表索引:"我"=0,"爱"=1,"吃"=2,"苹果"=3。
词嵌入矩阵参数:
E=0.10.30.50.70.20.40.60.8
(共4×2=8个参数)
-
输出层线性层(W+b):将嵌入向量映射为词表概率(需加softmax归一化)。
线性层权重矩阵(维度=嵌入维度×词表大小):
W=[0.20.60.30.70.40.80.50.9]
偏置向量(维度=词表大小):
b=[0.1,0.2,0.3,0.4]
(共2×4 + 4=12个参数)
3. 前向传播与参数作用(以输入"我"为例)
-
嵌入层:"我"对应索引0,取E的第0行→嵌入向量e0=[0.1,0.2](依赖E的参数)。
-
线性层计算:z=e0×WT+b(矩阵乘法+偏置):
z=[0.1×0.2+0.2×0.6, 0.1×0.3+0.2×0.7, 0.1×0.4+0.2×0.8, 0.1×0.5+0.2×0.9]+[0.1,0.2,0.3,0.4]
计算得:z≈[0.02+0.12+0.1, 0.03+0.14+0.2, 0.04+0.16+0.3, 0.05+0.18+0.4]=[0.24, 0.37, 0.50, 0.63]。
-
Softmax归一化:将z转换为概率(依赖参数的相对大小):
P(爱∣我)≈e0.37/(e0.24+e0.37+e0.50+e0.63)≈0.26,P(吃∣我)≈0.31,P(苹果∣我)≈0.43("我→苹果"概率最高,因参数组合强化了该关联)。
五、参数的规模与意义
-
规模对比:上述简化模型仅20个参数;而GPT-3有1750亿参数,LLaMA-2 70B有700亿参数。
-
规模的意义:参数越多,模型能学习的语言模式越精细(如区分"苹果"作为水果/公司的语义差异);但需更多数据和算力训练,推理速度也更慢。
通过以上层级拆解可见:参数是模型的"知识载体",其数值与结构直接决定了模型对语言的理解深度。