大模型领域常见的核心名词解释

一、 基础与架构相关

  1. 大语言模型 : 通常指基于Transformer架构、在海量文本数据上训练、拥有数十亿甚至万亿参数的自回归语言模型。例如GPT-4、Llama、文心一言等。

  2. Transformer : 一种革命性的深度学习模型架构,完全基于自注意力机制,摒弃了传统的循环和卷积结构。它是几乎所有现代大模型的基石。

  3. 注意力机制 : 使模型能够"关注"输入序列中不同部分的重要性的机制。核心是Query, Key, Value三元组,通过计算相似度来分配权重。

  4. 自注意力: 注意力机制的一种,其Query、Key、Value均来自同一个输入序列,用于捕捉序列内部元素间的依赖关系。

  5. 位置编码 : 由于Transformer本身没有循环和卷积,无法感知序列顺序,因此需要额外添加位置信息。分为绝对位置编码相对位置编码

  6. 参数 : 模型内部可学习的变量(权重和偏置)。参数量是衡量模型规模的核心指标,通常与模型的容量和性能正相关。

  7. Tokens : 模型处理文本的基本单位。在中文中,一个词或一个字可能被拆分成多个token。例如,通过分词器将文本转换成模型可理解的数字ID序列。

  8. 上下文长度: 模型单次处理所能接受的最大token数量。这是决定模型处理长文本能力的关键指标(如4K、8K、32K、128K、1M等)。


二、 训练与优化相关

  1. 预训练 : 在大规模无标注文本数据上,以自监督学习的方式(如下一个词预测)训练模型,赋予其通用语言知识和世界知识。这是构建大模型最耗时耗力的阶段。

  2. 指令微调 : 在预训练后,使用高质量的指令-回答对数据对模型进行有监督微调,使其学会遵循人类指令、理解任务意图并生成符合要求的格式。

  3. 对齐 : 通过技术手段(如RLHF)使模型的行为、价值观和输出与人类的意图、偏好和伦理准则保持一致。目标是让模型变得有用、诚实、无害

  4. 提示/提示工程 : 为用户提供给模型的输入文本,旨在引导模型产生期望的输出。设计有效提示的技巧称为提示工程

  5. 思维链 : 一种提示技巧,要求模型在给出最终答案前,先输出其推理步骤("让我们一步一步思考...")。这能显著提升模型在复杂推理任务上的表现。

  6. 涌现能力: 当模型规模超过某个临界点后,突然出现的、在小规模模型中不具备的能力(如复杂推理、代码生成、跨任务泛化等)。

  7. 缩放定律: 描述模型性能(如损失)与模型规模(参数)、数据量、计算量之间关系的经验法则。指导着"如何高效地训练更大更好的模型"。


三、 对齐与安全相关

  1. 基于人类反馈的强化学习: 大模型对齐的核心技术。分为三步:

    • SFT: 监督微调。

    • 奖励模型训练: 训练一个能根据人类偏好对模型输出打分的模型。

    • RL优化: 使用PPO等算法,以奖励模型为引导,优化语言模型的策略,使其输出更符合人类偏好。

  2. 人工反馈: 人类对模型的不同输出进行偏好排序或打分,用于训练奖励模型。

  3. 红队测试: 组织专门的团队(红队)像攻击者一样,通过构造恶意提示、对抗性输入等方式,主动测试模型的安全漏洞和风险。

  4. 越狱: 用户通过精心设计的提示绕过模型的安全限制,使其产生原本被禁止的内容(如仇恨言论、非法指导等)。

  5. 幻觉 : 指模型生成的内容看似合理但不符合事实或输入信息,即"一本正经地胡说八道"。这是大模型当前面临的主要挑战之一。


四、 部署与应用相关

  1. 推理: 指使用已训练好的模型对新的输入(提示)进行计算并生成输出的过程。

  2. 解码策略: 在推理时,从模型预测的概率分布中选择下一个token的策略。

    • 贪婪解码: 总是选择概率最高的token,速度快但输出可能单调。

    • 束搜索: 保留多个候选序列,最终选择整体概率最高的。

    • 采样 : 根据概率分布随机采样,可调节temperature(温度)参数控制随机性。

  3. 模型量化 : 将模型参数从高精度(如FP32)转换为低精度(如INT8、INT4),以大幅减少模型存储空间和内存占用,提升推理速度,但可能带来轻微的性能损失。

  4. 微调 : 在预训练模型基础上,使用特定领域的数据继续训练,使模型适应特定任务或领域。可分为:

    • 全参数微调: 更新所有参数,效果好但成本高。

    • 参数高效微调: 只更新一小部分新增的参数,大部分原始参数冻结。主流方法有:

      • LoRA: 在原始权重旁添加低秩适配器进行微调。

      • QLoRA: LoRA的量化版本,可在消费级GPU上微调超大模型。

      • Adapter: 在Transformer层中插入小型神经网络模块。

  5. 智能体 : 一个大模型驱动的系统,能够感知环境、做出决策并执行动作(如调用工具、API、操作软件等)来完成复杂任务。通常包含规划、记忆、工具使用等组件。

  6. 检索增强生成 : 在生成答案前,先从外部知识库(如向量数据库)中检索相关文档片段,并将这些信息作为上下文提供给模型。能有效减少幻觉,提升生成事实的准确性

  7. 多模态大模型 : 能够理解和处理多种类型输入(如文本、图像、音频、视频)的大模型。例如GPT-4V、Gemini等。


五、 生态与组织相关

  1. 闭源模型: 由商业公司开发,不公开模型权重和详细架构,通常通过API提供服务(如GPT-4、Claude)。

  2. 开源模型: 公开模型架构、权重和训练代码,允许研究者和开发者自由使用、修改和分发(如Llama 2/3、Bloom、ChatGLM)。

  3. MOE(混合专家模型) : 一种模型架构,由多个"专家"子网络组成,每层有一个"门控网络"根据输入动态选择激活少数几个专家。能在极大增加参数总量的同时,控制实际计算成本(如GPT-4、Mixtral 8x7B)。

希望这份名词解释能帮助你更好地理解和进入大模型的世界!随着领域快速发展,新的术语会不断涌现,但这份列表涵盖了当前最核心和常用的概念。

相关推荐
程序员柒叔3 小时前
Langfuse 项目概览
大模型·llm·prompt·可观测性·llm评估
攻城狮7号10 小时前
Anthropic开源Skills项目,打响了智能体标准化的第一枪
人工智能·大模型·skills·anthropic开源·ai技能
南方者11 小时前
大模型推理中 IRQ 中断优化:从机制解析到性能调优实践
大模型·irq
AI人工智能+11 小时前
大模型如何革新银行流水信息抽取
大模型·ocr·文本信息抽取
程序员柒叔12 小时前
Dify 工作流组件开发指南
大模型·word·workflow·工作流·dify
plmm烟酒僧12 小时前
使用 OpenVINO 本地部署 DeepSeek-R1 量化大模型(第二章:前端交互与后端服务)
前端·人工智能·大模型·intel·openvino·端侧部署·deepseek
大数据追光猿12 小时前
【Agent】高可用智能 Agent:记忆机制设计与性能优化实战
人工智能·python·langchain·大模型·agent
一代明君Kevin学长13 小时前
RAG中的上下文压缩(Contextual Compression)
人工智能·python·深度学习·ai·大模型·检索增强·rag
禁默15 小时前
在昇腾 NPU上压测 Qwen1.5-MoE:AtomGit 云端部署全记录
大模型·ascend·昇腾npu·atlas 800t