【学习笔记】4.1 什么是 LLM

前三章介绍NLP定义与任务,核心思想为注意力机制和Transformer架构,其推动NLP进入预训练-微调范式,预训练语言模型提升经典任务水平。

2022年底ChatGPT刷新NLP能力上限,大语言模型(LLM)成主流,接替传统预训练语言模型,刷新预训练-微调范式,LLM能力、通用基座模型及相关概念应用快速发展,标志大模型时代到来。

4.1.1 LLM 的定义

LLM(大语言模型)是参数量更多、在更大规模语料上预训练的语言模型,与传统预训练语言模型架构和预训练任务相似(如 Decoder-Only 架构、CLM 任务),但具备以下特点:

  • 参数与语料规模:通常包含数百亿及以上参数(广义覆盖十亿至千亿参数,如 Qwen-1.5B、Grok-314B),在数 T token 语料上通过多卡分布式集群预训练。
  • 能力特征:具备远超传统模型(如 BERT、T5)的文本理解与生成能力,需展现 "涌现能力"(复杂任务表现突出)。

4.1.2 LLM 的能⼒

1)涌现能力
  • LLM 在相同模型架构与预训练任务下,随规模增大展现出小模型不具备的突出能力,类似物理学相变的 "量变引起质变"。
  • 是业界关注 LLM 的核心,被认为是通往通用人工智能(AGI)的关键,依赖数据、模型架构及训练框架的优化。
(2)上下文学习(In-context Learning)
  • GPT-3 首次引入,LLM 可通过自然语言指令或少量示例执行任务,无需额外训练或参数更新。
  • 对比传统 PLM 的 "预训练 - 微调" 范式,大幅降低算力(如 BERT 微调需 10G 以上显存)和数据标注成本(下游任务需 1k~ 数万人工标注样本),推动 NLP 研究范式向 "Prompt 工程" 转变(如 GPT-4 仅需 1~5 个示例即可超越传统模型微调效果)。
(3)指令遵循(Instruction Following)
  • 通过多任务指令微调,LLM 能理解未见过的自然语言指令并执行任务,泛化能力强(如 ChatGPT 可处理写作、编程、批改试卷等跨领域任务)。
  • 支撑 Agent、Workflow 等场景,是实现全能助理、超级智能的基础,推动 LLM 与多行业结合。
(4)逐步推理(Step-by-Step Reasoning)
  • 采用思维链(CoT)推理策略,通过中间推理步骤提示解决复杂逻辑任务(如数学问题),能力可能源于代码训练。
  • 使 LLM 具备处理日常逻辑问题的能力,向 "可靠智能助理" 迈进,例如微软 Copilot 借助该能力辅助代码编写,提升开发效率。

4.1.3 LLM 的特点

1)多语言支持

LLM 因预训练语料天然包含多语言数据,具备跨语言处理能力,但不同语言表现受训练语料和微调影响。

英文高质量语料占比高,GPT-4 等模型英文能力显著优于中文;国内模型(如文心一言、通义千问)针对中文优化后表现更优。

(2)长文本处理

传统 PLM(如 BERT)最大上下文长度约 512 token,LLM 通过分布式训练支持 4k-32k 长度(如 InternLM 预训练支持 32k),并采用旋转位置编码(RoPE)或 AliBi 实现长度外推(如 InternLM 可推理处理 200k 长度文本)。

增强信息阅读与总结能力,可处理复杂任务(如基于《红楼梦》生成高考作文)。

(3)多模态拓展

通过增加参数(如 Adapter 层、图像编码器)并微调,将 LLM 能力延伸至图像模态,实现图文问答与生成。

优化文本与图像表示对齐,构建更强多模态模型,辐射更多模态(如音频、视频)。

(4)幻觉问题

LLM 可能生成虚假信息(如捏造学术论文),在医疗、金融等精准领域易引发严重后果。

通过 Prompt 限制、检索增强生成(RAG)等方法削弱幻觉,但尚未能彻底解决。

参考资料https://github.com/datawhalechina/happy-llm

相关推荐
lizhihai_99几秒前
股市学习心得-六张分时保命图
大数据·人工智能·学习
码云数智-大飞2 分钟前
大模型幻觉:成因解析与有效避免策略
人工智能·深度学习
我星期八休息3 分钟前
IT疑难杂症诊疗室:AI时代工程师Superpowers进化论
linux·开发语言·数据结构·人工智能·python·散列表
代码小书生6 分钟前
math,一个基础的 Python 库!
人工智能·python·算法
暗夜猎手-大魔王7 分钟前
转载--AI Agent 架构设计:上下文窗口压缩(OpenClaw、Claude Code、Hermes Agent 对比)
人工智能
AI科技星8 分钟前
全域数学·数术本源·高维代数卷(72分册)【乖乖数学】
人工智能·算法·数学建模·数据挖掘·量子计算
生成论实验室14 分钟前
《事件关系阴阳博弈动力学:识势应势之道》第一篇:生成正在发生——从《即事经》到事件-关系网络
人工智能·科技·算法·架构·创业创新
DanCheOo31 分钟前
AI 应用的安全架构:Prompt 注入、数据泄露、权限边界
前端·人工智能·prompt·安全架构
刘~浪地球1 小时前
DeepSeek V4 安全性与伦理:AI发展之路的思考
人工智能·deepseek v4
DanCheOo1 小时前
开源 | ai-memory v2.6.2:不用配 API Key,一行命令把 Cursor 对话变成结构化知识库
人工智能·ai·ai编程