【学习笔记】4.1 什么是 LLM

前三章介绍NLP定义与任务,核心思想为注意力机制和Transformer架构,其推动NLP进入预训练-微调范式,预训练语言模型提升经典任务水平。

2022年底ChatGPT刷新NLP能力上限,大语言模型(LLM)成主流,接替传统预训练语言模型,刷新预训练-微调范式,LLM能力、通用基座模型及相关概念应用快速发展,标志大模型时代到来。

4.1.1 LLM 的定义

LLM(大语言模型)是参数量更多、在更大规模语料上预训练的语言模型,与传统预训练语言模型架构和预训练任务相似(如 Decoder-Only 架构、CLM 任务),但具备以下特点:

  • 参数与语料规模:通常包含数百亿及以上参数(广义覆盖十亿至千亿参数,如 Qwen-1.5B、Grok-314B),在数 T token 语料上通过多卡分布式集群预训练。
  • 能力特征:具备远超传统模型(如 BERT、T5)的文本理解与生成能力,需展现 "涌现能力"(复杂任务表现突出)。

4.1.2 LLM 的能⼒

1)涌现能力
  • LLM 在相同模型架构与预训练任务下,随规模增大展现出小模型不具备的突出能力,类似物理学相变的 "量变引起质变"。
  • 是业界关注 LLM 的核心,被认为是通往通用人工智能(AGI)的关键,依赖数据、模型架构及训练框架的优化。
(2)上下文学习(In-context Learning)
  • GPT-3 首次引入,LLM 可通过自然语言指令或少量示例执行任务,无需额外训练或参数更新。
  • 对比传统 PLM 的 "预训练 - 微调" 范式,大幅降低算力(如 BERT 微调需 10G 以上显存)和数据标注成本(下游任务需 1k~ 数万人工标注样本),推动 NLP 研究范式向 "Prompt 工程" 转变(如 GPT-4 仅需 1~5 个示例即可超越传统模型微调效果)。
(3)指令遵循(Instruction Following)
  • 通过多任务指令微调,LLM 能理解未见过的自然语言指令并执行任务,泛化能力强(如 ChatGPT 可处理写作、编程、批改试卷等跨领域任务)。
  • 支撑 Agent、Workflow 等场景,是实现全能助理、超级智能的基础,推动 LLM 与多行业结合。
(4)逐步推理(Step-by-Step Reasoning)
  • 采用思维链(CoT)推理策略,通过中间推理步骤提示解决复杂逻辑任务(如数学问题),能力可能源于代码训练。
  • 使 LLM 具备处理日常逻辑问题的能力,向 "可靠智能助理" 迈进,例如微软 Copilot 借助该能力辅助代码编写,提升开发效率。

4.1.3 LLM 的特点

1)多语言支持

LLM 因预训练语料天然包含多语言数据,具备跨语言处理能力,但不同语言表现受训练语料和微调影响。

英文高质量语料占比高,GPT-4 等模型英文能力显著优于中文;国内模型(如文心一言、通义千问)针对中文优化后表现更优。

(2)长文本处理

传统 PLM(如 BERT)最大上下文长度约 512 token,LLM 通过分布式训练支持 4k-32k 长度(如 InternLM 预训练支持 32k),并采用旋转位置编码(RoPE)或 AliBi 实现长度外推(如 InternLM 可推理处理 200k 长度文本)。

增强信息阅读与总结能力,可处理复杂任务(如基于《红楼梦》生成高考作文)。

(3)多模态拓展

通过增加参数(如 Adapter 层、图像编码器)并微调,将 LLM 能力延伸至图像模态,实现图文问答与生成。

优化文本与图像表示对齐,构建更强多模态模型,辐射更多模态(如音频、视频)。

(4)幻觉问题

LLM 可能生成虚假信息(如捏造学术论文),在医疗、金融等精准领域易引发严重后果。

通过 Prompt 限制、检索增强生成(RAG)等方法削弱幻觉,但尚未能彻底解决。

参考资料https://github.com/datawhalechina/happy-llm

相关推荐
weixin_457340216 分钟前
旋转OBB数据集标注查看器
图像处理·人工智能·python·yolo·目标检测·数据集·旋转
玖日大大8 分钟前
NLP—— 让机器读懂人类语言的艺术与科学
人工智能·自然语言处理
这张生成的图像能检测吗13 分钟前
(论文速读)BV-DL:融合双目视觉和深度学习的高速列车轮轨动态位移检测
人工智能·深度学习·计算机视觉·关键点检测·双目视觉·激光传感器
lxmyzzs18 分钟前
在 RK3588 开发板上部署 DeepSeek-R1-Distill-Qwen-1.5B 模型:RKLLM API 实战指南
人工智能·rk3588·deepseek
老欧学视觉21 分钟前
0011机器学习特征工程
人工智能·机器学习
科技观察23 分钟前
国产MATLAB替代软件的关键能力与生态发展现状
大数据·人工智能·matlab
用户51914958484526 分钟前
掌握比特币:开放区块链编程全解析
人工智能·aigc
轻赚时代33 分钟前
PC 端 AI 图像处理工具实操指南:抠图 / 证件照优化 / 智能擦除全流程解析
图像处理·人工智能·经验分享·笔记·深度学习·创业创新·学习方法
晓山清41 分钟前
Meeting Summarizer Using Natural Language Processing论文理解
人工智能·python·nlp·摘要生成
池央1 小时前
从“算子不支持”到“NPU高效执行”:CANN 8.0 TBE 自定义算子落地实践
linux·人工智能