【学习笔记】4.1 什么是 LLM

前三章介绍NLP定义与任务，核心思想为注意力机制和Transformer架构，其推动NLP进入预训练-微调范式，预训练语言模型提升经典任务水平。

2022年底ChatGPT刷新NLP能力上限，大语言模型（LLM）成主流，接替传统预训练语言模型，刷新预训练-微调范式，LLM能力、通用基座模型及相关概念应用快速发展，标志大模型时代到来。

LLM（大语言模型）是参数量更多、在更大规模语料上预训练的语言模型，与传统预训练语言模型架构和预训练任务相似（如 Decoder-Only 架构、CLM 任务），但具备以下特点：

参数与语料规模：通常包含数百亿及以上参数（广义覆盖十亿至千亿参数，如 Qwen-1.5B、Grok-314B），在数 T token 语料上通过多卡分布式集群预训练。
能力特征：具备远超传统模型（如 BERT、T5）的文本理解与生成能力，需展现 "涌现能力"（复杂任务表现突出）。

4.1.2 LLM 的能⼒

GPT-3 首次引入，LLM 可通过自然语言指令或少量示例执行任务，无需额外训练或参数更新。
对比传统 PLM 的 "预训练 - 微调" 范式，大幅降低算力（如 BERT 微调需 10G 以上显存）和数据标注成本（下游任务需 1k~ 数万人工标注样本），推动 NLP 研究范式向 "Prompt 工程" 转变（如 GPT-4 仅需 1~5 个示例即可超越传统模型微调效果）。

LLM 因预训练语料天然包含多语言数据，具备跨语言处理能力，但不同语言表现受训练语料和微调影响。

英文高质量语料占比高，GPT-4 等模型英文能力显著优于中文；国内模型（如文心一言、通义千问）针对中文优化后表现更优。

传统 PLM（如 BERT）最大上下文长度约 512 token，LLM 通过分布式训练支持 4k-32k 长度（如 InternLM 预训练支持 32k），并采用旋转位置编码（RoPE）或 AliBi 实现长度外推（如 InternLM 可推理处理 200k 长度文本）。

增强信息阅读与总结能力，可处理复杂任务（如基于《红楼梦》生成高考作文）。

通过增加参数（如 Adapter 层、图像编码器）并微调，将 LLM 能力延伸至图像模态，实现图文问答与生成。

优化文本与图像表示对齐，构建更强多模态模型，辐射更多模态（如音频、视频）。

LLM 可能生成虚假信息（如捏造学术论文），在医疗、金融等精准领域易引发严重后果。

通过 Prompt 限制、检索增强生成（RAG）等方法削弱幻觉，但尚未能彻底解决。