一、 基础与架构相关
-
大语言模型 : 通常指基于Transformer架构、在海量文本数据上训练、拥有数十亿甚至万亿参数的自回归语言模型。例如GPT-4、Llama、文心一言等。
-
Transformer : 一种革命性的深度学习模型架构,完全基于自注意力机制,摒弃了传统的循环和卷积结构。它是几乎所有现代大模型的基石。
-
注意力机制 : 使模型能够"关注"输入序列中不同部分的重要性的机制。核心是Query, Key, Value三元组,通过计算相似度来分配权重。
-
自注意力: 注意力机制的一种,其Query、Key、Value均来自同一个输入序列,用于捕捉序列内部元素间的依赖关系。
-
位置编码 : 由于Transformer本身没有循环和卷积,无法感知序列顺序,因此需要额外添加位置信息。分为绝对位置编码 和相对位置编码。
-
参数 : 模型内部可学习的变量(权重和偏置)。参数量是衡量模型规模的核心指标,通常与模型的容量和性能正相关。
-
Tokens : 模型处理文本的基本单位。在中文中,一个词或一个字可能被拆分成多个token。例如,通过分词器将文本转换成模型可理解的数字ID序列。
-
上下文长度: 模型单次处理所能接受的最大token数量。这是决定模型处理长文本能力的关键指标(如4K、8K、32K、128K、1M等)。
二、 训练与优化相关
-
预训练 : 在大规模无标注文本数据上,以自监督学习的方式(如下一个词预测)训练模型,赋予其通用语言知识和世界知识。这是构建大模型最耗时耗力的阶段。
-
指令微调 : 在预训练后,使用高质量的指令-回答对数据对模型进行有监督微调,使其学会遵循人类指令、理解任务意图并生成符合要求的格式。
-
对齐 : 通过技术手段(如RLHF)使模型的行为、价值观和输出与人类的意图、偏好和伦理准则保持一致。目标是让模型变得有用、诚实、无害。
-
提示/提示工程 : 为用户提供给模型的输入文本,旨在引导模型产生期望的输出。设计有效提示的技巧称为提示工程。
-
思维链 : 一种提示技巧,要求模型在给出最终答案前,先输出其推理步骤("让我们一步一步思考...")。这能显著提升模型在复杂推理任务上的表现。
-
涌现能力: 当模型规模超过某个临界点后,突然出现的、在小规模模型中不具备的能力(如复杂推理、代码生成、跨任务泛化等)。
-
缩放定律: 描述模型性能(如损失)与模型规模(参数)、数据量、计算量之间关系的经验法则。指导着"如何高效地训练更大更好的模型"。
三、 对齐与安全相关
-
基于人类反馈的强化学习: 大模型对齐的核心技术。分为三步:
-
SFT: 监督微调。
-
奖励模型训练: 训练一个能根据人类偏好对模型输出打分的模型。
-
RL优化: 使用PPO等算法,以奖励模型为引导,优化语言模型的策略,使其输出更符合人类偏好。
-
-
人工反馈: 人类对模型的不同输出进行偏好排序或打分,用于训练奖励模型。
-
红队测试: 组织专门的团队(红队)像攻击者一样,通过构造恶意提示、对抗性输入等方式,主动测试模型的安全漏洞和风险。
-
越狱: 用户通过精心设计的提示绕过模型的安全限制,使其产生原本被禁止的内容(如仇恨言论、非法指导等)。
-
幻觉 : 指模型生成的内容看似合理但不符合事实或输入信息,即"一本正经地胡说八道"。这是大模型当前面临的主要挑战之一。
四、 部署与应用相关
-
推理: 指使用已训练好的模型对新的输入(提示)进行计算并生成输出的过程。
-
解码策略: 在推理时,从模型预测的概率分布中选择下一个token的策略。
-
贪婪解码: 总是选择概率最高的token,速度快但输出可能单调。
-
束搜索: 保留多个候选序列,最终选择整体概率最高的。
-
采样 : 根据概率分布随机采样,可调节
temperature(温度)参数控制随机性。
-
-
模型量化 : 将模型参数从高精度(如FP32)转换为低精度(如INT8、INT4),以大幅减少模型存储空间和内存占用,提升推理速度,但可能带来轻微的性能损失。
-
微调 : 在预训练模型基础上,使用特定领域的数据继续训练,使模型适应特定任务或领域。可分为:
-
全参数微调: 更新所有参数,效果好但成本高。
-
参数高效微调: 只更新一小部分新增的参数,大部分原始参数冻结。主流方法有:
-
LoRA: 在原始权重旁添加低秩适配器进行微调。
-
QLoRA: LoRA的量化版本,可在消费级GPU上微调超大模型。
-
Adapter: 在Transformer层中插入小型神经网络模块。
-
-
-
智能体 : 一个大模型驱动的系统,能够感知环境、做出决策并执行动作(如调用工具、API、操作软件等)来完成复杂任务。通常包含规划、记忆、工具使用等组件。
-
检索增强生成 : 在生成答案前,先从外部知识库(如向量数据库)中检索相关文档片段,并将这些信息作为上下文提供给模型。能有效减少幻觉,提升生成事实的准确性。
-
多模态大模型 : 能够理解和处理多种类型输入(如文本、图像、音频、视频)的大模型。例如GPT-4V、Gemini等。
五、 生态与组织相关
-
闭源模型: 由商业公司开发,不公开模型权重和详细架构,通常通过API提供服务(如GPT-4、Claude)。
-
开源模型: 公开模型架构、权重和训练代码,允许研究者和开发者自由使用、修改和分发(如Llama 2/3、Bloom、ChatGLM)。
-
MOE(混合专家模型) : 一种模型架构,由多个"专家"子网络组成,每层有一个"门控网络"根据输入动态选择激活少数几个专家。能在极大增加参数总量的同时,控制实际计算成本(如GPT-4、Mixtral 8x7B)。
希望这份名词解释能帮助你更好地理解和进入大模型的世界!随着领域快速发展,新的术语会不断涌现,但这份列表涵盖了当前最核心和常用的概念。