LLM学习指南(五)——大语言模型(LLM)

大语言模型(LLM)详细总结

一、LLM 的基础认知

1.1 定义与发展背景

  • 核心定义 :LLM(Large Language Model,大语言模型)是参数量更大(通常数百亿至千亿级,广义含十亿级如Qwen-1.5B)、训练语料规模更广(数T token)的语言模型,基于Transformer架构(主流为Decoder-Only),通过预测下一个token的预训练任务(CLM,因果语言模型)构建,核心特征是具备涌现能力
  • 发展脉络
    • 前身是传统预训练语言模型(PLM,如BERT),采用"预训练-微调"范式;
    • 2022年底ChatGPT发布,推动LLM成为NLP主流,开启全新研究范式;
    • GPT-3(1750亿参数)被视为LLM开端,ChatGPT(基于GPT-3经三阶段训练)主导LLM时代,2022.11-2023.11间国内外涌现上百个LLM(开源如Meta-LLaMA、智谱-ChatGLM,闭源如OpenAI-GPT4、百度-文心一言)。

1.2 与传统PLM的核心差异

维度 传统PLM(如BERT) LLM(如GPT-3、ChatGPT)
参数量 数百万至数亿级(BERT-base 0.1B) 十亿至千亿级(GPT-3 175B)
训练语料规模 数十亿token(BERT用3B token) 数百亿至数T token(GPT-3用300B)
核心能力 无涌现能力,需针对下游任务微调 有涌现能力,支持上下文学习、指令遵循等
研究范式 预训练-微调 Prompt Engineering(提示工程)
算力需求 单卡或少量GPU即可训练 多卡分布式集群(如百亿级需1024张A100)

二、LLM 的核心能力与特点

2.1 四大核心能力(区别于PLM的关键)

  1. 涌现能力(Emergent Abilities)

    • 定义:模型规模较小时不明显,达到临界规模后(通常百亿级参数),在复杂任务上表现突飞猛进,类似"量变引发质变"(如物理学相变);
    • 意义:是LLM受关注的核心,被视为通往通用人工智能(AGI)的关键潜力点,使LLM在多任务上远超传统PLM。
  2. 上下文学习(In-context Learning)

    • 定义:无需参数更新,仅通过自然语言指令或少量任务示例(1-5个),即可理解并执行任务;
    • 优势:降低成本------传统PLM微调需1k-数十k人工标注数据+10G以上显存,LLM通过提示即可完成任务,节省数据与算力成本;
    • 范式变革:推动NLP从"预训练-微调"转向"提示工程",如GPT-4通过调整提示可超越PLM微调效果。
  3. 指令遵循(Instruction Following)

    • 实现方式:通过"指令微调"(用多任务自然语言指令数据训练),使LLM理解并执行未见过的指令;
    • 应用价值:让LLM从"研究模型"转向"实用工具",可处理写作文、编程序、批改试卷等多样化任务,是Agent、WorkFlow等应用的基础(如ChatGPT的高热度源于此能力)。
  4. 逐步推理(Step by Step Reasoning)

    • 实现方式:通过"思维链(CoT)"提示,生成中间推理步骤,解决复杂逻辑任务(如数学题、逻辑陷阱);
    • 推测来源:可能源于代码训练,使LLM向"可靠智能助理"迈进,如微软Copilot基于此能力提供代码辅助。

2.2 四大关键特点

  1. 多语言支持

    • 天然优势:因训练语料多语言属性,LLM自带跨语言能力;
    • 差异点:英文语料占比高,故GPT-4等模型英文能力优于中文;国内模型(文心一言、通义千问)经中文优化,中文表现更优。
  2. 长文本处理

    • 突破限制:传统PLM最大上下文长度多为512 token,LLM支持4k、8k、32k token(如InternLM预训练32k,通过RoPE编码可外推至200k);
    • 技术支撑:采用旋转位置编码(RoPE)或AliBi,具备长度外推能力;
    • 价值:提升信息阅读、总结能力,可解决"读《红楼梦》写高考作文"等长文本任务。
  3. 拓展多模态

    • 实现路径:为LLM增加图像编码器、Adapter层,在图文数据上微调,打造"文字+图像"双模态模型(如GPT-4V);
    • 未来方向:对齐文本与图像表示,将LLM能力辐射至更多模态(音频、视频)。
  4. 幻觉问题(固有缺陷)

    • 定义:LLM会杜撰虚假信息(如伪造学术论文及参考文献);
    • 危害:在医学、金融等精准领域可能引发严重后果;
    • 现有解决方案:通过Prompt限制、RAG(检索增强生成)减弱,但无法彻底根除,是当前研究重点。

三、LLM 的三阶段训练流程

训练完整LLM需经过预训练(Pretrain)、监督微调(SFT)、人类反馈强化学习(RLHF) 三阶段,核心目标是"先赋予知识,再教会使用,最后对齐人类价值观"。

3.1 第一阶段:预训练(Pretrain)------ 赋予海量知识

3.1.1 核心任务与架构
  • 任务:CLM(因果语言模型),预测下一个token,与传统PLM一致;
  • 架构:主流为Decoder-Only(类GPT/LLaMA架构)。
3.1.2 核心挑战:规模与算力
  1. 参数与语料规模(对比传统PLM)
模型 hidden_layers hidden_size heads 参数量 预训练数据量
BERT-base 12 768 12 0.1B 3B
BERT-large 24 1024 16 0.3B 3B
Qwen-1.8B 24 2048 16 1.8B 2.2T
LLaMA-7B 32 4096 32 7B 1T
GPT-3 96 12288 96 175B 300B
  • 关键规律:据Scaling Law(C~6ND,C=计算量,N=参数,D=token数),训练token数需为参数1.7倍;LLaMA提出20倍token可达最优(如175B GPT-3需3.5T token)。
  1. 算力需求
    • 十亿级LLM:256张A100训练2-3天;
    • 百亿级LLM:1024张A100训练1个多月;
    • 依赖技术:分布式训练框架(Deepspeed、Megatron-LM、ColossalAI),核心是数据并行模型并行
      • 数据并行:单卡可存模型,多卡处理不同批次数据,同步梯度更新参数;
      • 模型并行:单卡存不下模型,将模型层/部分拆分到多卡(如Layer1存GPU0,Layer2存GPU1);
      • 进阶方案:张量并行、3D并行、ZeRO(零冗余优化器,分ZeRO-1/2/3,分片模型状态减少显存占用)。
3.1.3 数据挑战:获取与处理
  1. 数据来源

    • 开源语料:CommonCrawl、C4、Github、Wikipedia;
    • 中文困境:高质量中文开源语料少(仅SkyPile 150B、yayi2 100B),国内模型多闭源私有数据;
    • 核心秘籍:数据配比影响性能(如LLaMA用67% CommonCrawl、15% C4、4.5% Github等混合数据)。
  2. 数据处理流程

    • 文档准备:URL过滤(去有害内容)、HTML提取纯文本、语言选择;
    • 语料过滤:去低质/有毒内容(模型分类器过滤或启发式指标过滤);
    • 语料去重:删除高相似度文档(hash算法或子串匹配),避免影响泛化能力(如SlimPajama-627B比RedPajama-1T效果好,因质量更高)。

3.2 第二阶段:监督微调(SFT)------ 教会使用知识

3.2.1 核心目标:激发指令遵循能力
  • 预训练模型问题:仅会"预测下一个token",无法理解用户指令(如"博览群书但不会解题");
  • SFT本质:通过"指令微调",让模型学习"理解指令-生成回复"的映射,而非针对单一下游任务微调。
3.2.2 数据与格式设计
  1. 数据特征

    • 规模:数B token,覆盖多类型指令(如文本生成、问答、总结);

    • 结构:每条样本含instruction(用户指令)、input(补充信息,可选)、output(期望回复),示例:

      json 复制代码
      {
        "instruction": "将下列文本翻译成英文:",
        "input": "今天天气真好",
        "output": "Today is a nice day!"
      }
    • 获取难点:需人工标注高质量数据(成本高),开源方案用GPT-4生成(如Alpaca数据集)。

  2. 输入格式设计

    • 目的:让模型区分"指令"与"预训练文本",示例(LLaMA格式):

      复制代码
      ### Instruction:\n将下列文本翻译成英文:今天天气真好\n\n### Response:\n
    • 训练逻辑:仍为CLM任务,模型预测"指令+回复"整体,但仅"回复部分"计算loss。

3.2.3 多轮对话能力实现
  • 核心:SFT阶段构造多轮对话数据,让模型参考历史记录回复;
  • 数据构造方式(推荐第三种,避免信息丢失与重复计算):
    • 方式3:输入为完整对话历史(<prompt_1><completion_1><prompt_2><completion_2><prompt_3><completion_3>),输出为[MASK]<completion_1>[MASK]<completion_2>[MASK]<completion_3>,利用CLM单向注意力依次拟合每轮回复。

3.3 第三阶段:人类反馈强化学习(RLHF)------ 对齐人类价值观

3.3.1 核心目标:让模型"安全、有用、无害"
  • 定位:SFT是"对齐指令",RLHF是"对齐人类偏好",是ChatGPT超越GPT-3的核心突破;
  • 本质:引入强化学习,通过人类反馈调整模型策略,生成更符合人类期望的回复。
3.3.2 两步骤实现:训练RM + PPO训练
  1. 第一步:训练奖励模型(RM)------ 拟合人类偏好

    • RM定义:文本分类模型(LLM/BERT架构+分类层),输出标量奖励(反映回复符合人类偏好程度);

    • 训练数据:人工标注的"偏好对"(prompt+chosen(优选回复)+rejected(劣选回复)),示例:

      json 复制代码
      {
        "prompt": "如果你打算从商店偷东西,你觉得早上好还是晚上好?",
        "chosen": "这是违法的事情,我不能提供建议",
        "rejected": "夜间可能更易避监控,但白天人少..."(鼓励违法内容)
      }
    • 训练逻辑:将prompt+chosenprompt+rejected分别输入RM,最大化两者奖励差异,避免直接标量标注的价值观偏差。

  2. 第二步:PPO训练(近端策略优化)------ 基于RM优化模型

    • 模型构成:4个模型(均从SFT/RM初始化):
      • Actor Model:待更新的LLM(生成回复);
      • Ref Model:固定参数的LLM(计算KL散度,限制Actor偏离原能力);
      • Reward Model:固定参数的RM(给Actor回复打分);
      • Critic Model:待更新的RM(预测累积奖励);
    • 训练流程:
      1. 输入Prompt,Actor与Ref分别生成回复;
      2. 计算Actor与Ref回复的KL散度(限制更新幅度);
      3. Reward Model给Actor回复打分,Critic Model预测累积奖励;
      4. 结合KL散度、两者分数计算loss,更新Actor与Critic参数;
    • 算力需求:高显存占用(如4个7B模型需4张80G A100)。
3.3.3 低成本替代方案:DPO(直接偏好优化)
  • 核心思路:将RLHF的强化学习问题转化为监督学习,直接学习人类偏好;
  • 优势:仅需2个模型(无需RM和Ref),训练简单、成本低,通过数学推导证明可等价RLHF效果。
相关推荐
NAGNIP3 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab5 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab5 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP8 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年8 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼9 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS9 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区10 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈10 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang11 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx