当我们谈论大模型,我们常常会听到"参数"这个词。那么,参数究竟是什么呢?让我们一步步揭开它的神秘面纱。
本文首发在「码农姐妹」公众号。欢迎大家关注阅读,并且期待您的建议和反馈!
本期是人人都能懂的大模型知识第二期,欢迎订阅专栏。
本文会探讨几个问题:
-
参数在大模型中扮演着怎样的角色?
-
业界顶尖大模型的参数规模是什么样?
-
参数规模是否越大越好?
本文作者:菜菜 、 Summer
业界的大模型参数规模
虽然目前市场上发布的 AI 模型都叫"大模型",但并非所有模型都是名副其实的大模型。参数规模(也就是参数的数量)被认为是大模型、小模型的界定因素之一。
我们平时说的"小模型" LLaMa7B(LLaMa 是Meta为自己推出的大模型起的名字,7B指的是7Billion,即包含70亿参数的版本,对应的还有llama13B、65B等),模型本身包含70亿个参数,仅存储模型,就需要占用约13GB的硬盘空间。如果是 chatGLM 130B,1300亿参数,占用约240 GB 以上的硬盘空间。
在大模型中,参数规模非常庞大,可以达到数十亿甚至数千亿。因为有着巨量的参数,大模型拥有更强的学习能力、更高的复杂性以及能够捕捉到更加细微的数据特征的能力。我们发现,当模型参数量很大,在训练阶段见过很多很多的数据(trillion,万亿个字),它就可以很好地完成续写任务。
一些市面上大模型参数规模参考:
- OpenAI GPT-3.5参数规模达1750亿
- 苹果多模态大模型 MM1 参数规模最高300亿
- Meta 计划在7月份推出新的 AI 大模型 Llama 3,参数量最高或超过1400亿
- 谷歌发布的开源模型Gemma,Gemma 主打轻量级、高性能,有200亿、700亿两种参数规模
- 国内大模型独角兽月之暗面号称千亿参数规模
- 马斯克的AI创企xAI发布了大模型Grok-1,其参数量达到了3140亿
- 腾讯在财报中首度披露腾讯混元采用混合专家模型结构,已扩展为万亿参数规模
LLM产品参数规模趋势
数据来源:informationisbeautiful.net/visualizati...
模型参数被视为机器学习和深度学习的'基因',这些'基因'对模型产生了重要的影响。正如生物基因通过复制、变异和选择过程优化生物体的特征和功能,模型参数在训练的过程中也不断被优化和调整,最终装备模型知识和技能,让模型具备了识别输入数据特征并进行预测的能力。
那么,究竟是什么构成了大模型的参数呢?*
*
大模型参数:权重和偏置
当下市面流行的大模型大多基于大型神经网络模型训练构造,而神经网络模型正是受人脑神经系统启发设计的。
人类大脑中的神经系统可以看成是由海量神经元组成的庞大网络,每个神经元接收从其他神经元传来的信号,如果信号强度超过某个阈值,那么这个神经元就会被激活并将信号传播给其他神经元。
神经网络节点就与神经元类似,每个节点接受一组输入参数,通过一定的计算,产生相应的输出并传递给其他节点,而参数的秘密就隐藏在这个计算的过程里。
我们以一个简单的神经网络节点来理解:
一个神经网络节点接收一组输入特征,每个输入特征通过一个权重进行加权,对所有加权的输入特征求和。这个求和的结果通常还会加上一个偏置项,然后通过一个激活函数来产生节点的输出。数学上,这个过程可以表示为:
输出=f(∑(权重×输入)+偏置)
其中 f 是激活函数,比如 ReLU、sigmoid或tanh等。
👉权重(weights):在模型中,每个特征都会被赋予一个权重,模型通过调整这些权重来学习哪些输入更重要,哪些输入相对不那么重要。
例如,在预测天气的模型中,当前的气压读数可能比一周前的温度读数有更大的权重。
👉偏置(biases):为了捕捉数据的规律和关系,偏置提供了一个可调节的阈值,使得即使所有输入都为零时,输出也会输出非零的值。它帮助模型调整在没有激活输入的情况下应该如何响应。
回到我们的天气预测模型,即使在没有任何显著气候变化的输入情况下,某个地区可能由于地理位置或者季节因素而倾向于有特定的天气模式。偏置可以帮助模型在这种情况下给出一个合理的预测基线,确保输出不会完全偏离实际情况。
权重决定了每个输入如何影响输出,而偏置则帮助模型调整在没有显著输入或输入全为零时的输出。通过调整权重和偏置,大模型能够学习和适应复杂的数据模式,从而进行有效的预测或决策。
权重和偏置是构建复杂多层神经网络的基础,这些网络能够学习从简单到高度抽象的数据表示。每一层网络通过执行线性变换(使用权重和偏置)并接着应用一个非线性激活函数来处理输入数据,从而增加模型的表达能力和学习复杂模式的能力。这种层级结构允许深度学习模型逐层提取和构建特征,使其能够识别和处理非常复杂的数据结构和关系。
太晦涩了?让我们下面看个菜菜摆摊卖柠檬茶的小故事。
菜菜摆摊卖柠檬茶的故事
因为菜菜爱喝柠檬茶,码农姐妹打算开拓一个新的创业项目-经营西二旗地铁口柠檬茶摊位。为了让大家都喜欢她的柠檬茶,她决定找出最好的柠檬茶配方。在这个故事中,配方就像是一个"模型"。
下面是新晋地摊经济摊主菜菜调制柠檬茶大模型的故事:
首先,菜菜在她的柠檬茶模型中加入了多种成分:新鲜柠檬汁、清水、蜂蜜、香茅和柠檬草。这些成分(比如柠檬汁和水的比例)就像是模型的"输入特征",成分的比例就像是大模型的"参数"。每种成分的量都可以调整,就像在机器学习模型中调整参数一样,目的是为了找到那个"最好喝"的柠檬茶配方。
在调试她的柠檬茶配方时,菜菜发现,当柠檬汁的比例稍微增加时,柠檬水的酸味更浓,顾客的满意度提高了;而当蜂蜜比例增加时,柠檬水的甜味增强,但过多则会让柠檬水变得太甜,顾客的喜爱度下降。这个过程类似于调整大模型中的"权重"------每个参数(成分)的重要性是不同的,通过不断地试验和调整,我们可以找到那个最佳的平衡点。
然而,仅有正确的成分比例("权重")还不够,菜菜还发现了一个有趣的现象:无论如何调整成分比例,只要加入一点点香茅和柠檬草,就能显著提高柠檬茶的整体口感。香茅和柠檬草在这里就像是模型中的"偏置",即使很小的量,也能对最终的味道产生重要影响,帮助调整整体的味道。
通过不断的尝试和调整,菜菜最终找到了她的秘密配方------这就像是训练一个大模型,找到最优的参数,以达到最佳的性能。而码农姐妹的柠檬茶摊位,凭借着独特的配方,在地铁口大受欢迎,成为了一道独特的风景线。
在实际的大模型中,参数数量可能是非常巨大的,这就像是在使用成千上万种原材料来制作一杯完美的柠檬茶。
参数规模是不是越大越好?
通常情况下,模型参数越多,模型的学习能力也会越强。但是,参数规模的增加也带来了更高的计算成本和过拟合的风险。
计算成本高: 大模型需要巨大的计算资源来训练,这意味着需要昂贵的硬件和大量的电力。
过度拟合的风险: 模型如果太大,而用于训练的数据量相对较小,容易发生过拟合,即模型在训练数据上表现很好,但在处理新数据时表现不佳,因为模型学到了训练数据中的噪声而非潜在的数据生成分布。
让我们继续回到菜菜的柠檬茶摊位。
菜菜的摊位因为有着极其复杂的柠檬茶配方,在西二旗地铁口开始出名。配方包括了上百种不同的香料和调味品,复杂的配方就像是一个拥有非常多参数的大模型。这样的配方(模型)理论上可以调配出无数种独特的柠檬茶,拥有极强的学习能力和适应性,可以满足各种挑剔顾客的口味。
但是,问题也随之而来。
为了找到这个复杂配方中每种香料和调味品的最佳比例,菜菜不得不进行大量的尝试,这就像是大模型需要巨大计算资源来训练一样。在现实中,这意味着菜菜需要花费大量时间去测试每种香料的效果,同时也需要购买大量的原材料来进行实验。因为成本过高,菜菜的柠檬茶摊位开始亏损。
菜菜发现,在她的常客群体中,有一种非常特殊的配方特别受欢迎。为了迎合这些常客,她特意调整了配方来满足这些顾客的口味。然而,这个配方可能只适用于这个小群体,而不适用于更广泛的顾客。这就像是过拟合现象,在训练集上表现出色的大模型可能无法很好地泛化到新的数据上。在柠檬茶摊位上,这意味着虽然某个配方在一小部分人群中非常受欢迎,但当新顾客尝试时,他们可能会觉得味道不佳。由于配方过于特殊化,没有普遍的吸引力,柠檬摊的客户也因此流失了不少。
因此,即使是拥有强大学习能力的复杂配方(大模型),也需要谨慎处理,以确保它既能够满足大多数人的口味,又能够有效地管理成本,并且能够在新的顾客群体中也表现出色。
这就是为什么在大模型的训练过程中,我们需要平衡模型的复杂性和实用性,避免过度拟合,并确保模型的泛化能力。
往期精彩: