大语言模型(LLM)分类详解

本文系统梳理大语言模型的多维分类体系,涵盖架构、训练范式、规模、应用定位、技术特性及开源/闭源等维度,并附典型模型实例。


一、按基础架构分类

大语言模型的底层神经网络架构决定了其信息处理方式和适用场景。

类型 核心特点 工作原理 适用任务 代表模型
Encoder-only(仅编码器) 双向注意力机制,同时关注上下文两侧信息 通过掩码语言建模(MLM)理解文本 文本分类、情感分析、命名实体识别、语义相似度计算 BERT (Google, 2018)、RoBERTa (Meta, 2019)、ERNIE(百度, 2019)
Decoder-only(仅解码器) 自回归生成,从左到右逐token预测 基于前文预测下一个词,适合开放式生成 文本生成、对话系统、代码生成、创意写作 GPT-4 (OpenAI, 2023)、LLaMA-3 (Meta, 2024)、Claude 3 (Anthropic, 2024)、Qwen2(阿里, 2024)
Encoder-Decoder(编码器-解码器) 编码器理解输入,解码器生成输出 序列到序列(Seq2Seq)映射 机器翻译、文本摘要、问答系统 T5 (Google, 2019)、BART (Meta, 2019)、GLM(清华&智谱, 2022)

趋势说明 :当前大模型领域以 Decoder-only 架构为主流。GPT系列的成功验证了自回归生成在通用人工智能中的潜力,使其成为绝大多数大模型的标准选择。


二、按训练范式/目标分类

模型在不同阶段的训练目标决定了其能力边界和使用方式。

类型 训练阶段 核心方法 能力特点 典型代表
基础预训练模型 第一阶段:无监督预训练 在大规模无标注文本上进行自监督学习(如 next-token prediction) 具备通用语言理解和生成能力,但缺乏指令遵循能力 GPT-3 (175B, OpenAI, 2020)、LLaMA-2 (7B/13B/70B, Meta, 2023)、Baichuan-2(百川智能, 2023)
指令微调模型(Instruction-tuned) 第二阶段:有监督微调(SFT) 使用指令-响应对数据进行微调,学习遵循人类指令 能够理解并执行具体指令,如"翻译这段话"、"总结文章" Alpaca (斯坦福, 2023, 基于LLaMA-7B)、Vicuna (LMSYS, 2023, 基于LLaMA-13B)、ChatGLM-6B(清华&智谱, 2023)
对齐模型(Alignment) 第三阶段:人类偏好对齐 通过RLHF(人类反馈强化学习)或RLAIF(AI反馈强化学习)优化 输出更安全、有用、符合人类价值观,减少有害内容 ChatGPT (OpenAI, 2022)、Claude 3 Opus (Anthropic, 2024)、GPT-4 Turbo(OpenAI, 2024)
多模态模型 跨模态预训练 融合文本、图像、音频、视频等多模态数据进行联合训练 具备跨模态理解和生成能力,如看图说话、视频分析 GPT-4V (OpenAI, 2023, 图像理解)、Gemini 1.5 Pro (Google, 2024, 视频+图像+文本)、Qwen-VL (阿里, 2023, 视觉语言)、LLaVA(UC伯克利, 2023, 视觉指令微调)

训练流程示意:基础预训练 → 指令微调(SFT) → 人类偏好对齐(RLHF)


三、按模型规模/参数分类

参数量是衡量模型容量的重要指标,直接影响模型能力和部署成本。

规模级别 参数量级 典型模型 特点 部署场景
小型模型 < 10B(100亿) Phi-3-mini (3.8B, Microsoft, 2024)、Gemma-2B (Google, 2024)、Qwen2-1.5B(阿里, 2024) 轻量高效,推理速度快,资源占用低 手机端侧、IoT设备、边缘计算、嵌入式系统
中型模型 10B ~ 70B(100亿~700亿) LLaMA-2-13B (Meta, 2023)、Mistral-7B (Mistral AI, 2023)、Baichuan-2-13B (百川, 2023)、ChatGLM3-6B(智谱, 2023) 性能与成本的最佳平衡点,开源社区主流 个人服务器、中小企业私有化部署、科研实验
大型模型 70B ~ 100B+(700亿~1000亿+) LLaMA-2-70B (Meta, 2023)、Qwen-72B (阿里, 2023)、Mixtral 8x7B(Mistral AI, 2023, MoE架构) 能力强劲,接近顶级闭源模型,需专业硬件支持 企业级数据中心、云计算平台、高性能计算集群
超大规模模型 100B+ ~ 万亿级(1000亿+) GPT-4 (据传1.8T, MoE架构, OpenAI, 2023)、GPT-3 (175B, OpenAI, 2020)、PaLM-2(540B, Google, 2023) 顶尖性能,涌现能力强,训练和推理成本极高 仅少数头部AI公司/研究机构具备训练和部署能力

:MoE(Mixture of Experts)架构可以在总参数量很大的情况下,通过稀疏激活控制实际推理参数量,如GPT-4据传采用8×220B的MoE结构。


四、按应用定位分类

不同模型针对特定场景进行了优化,形成了专业化的模型矩阵。

类型 定位说明 核心能力 代表模型 应用示例
通用基座模型 面向广泛任务的通用人工智能 知识问答、文本生成、逻辑推理、多轮对话 GPT-4o (OpenAI, 2024)、Claude 3.5 Sonnet (Anthropic, 2024)、通义千问2.5 (阿里, 2024)、文心一言4.0(百度, 2024) 智能客服、内容创作、教育辅导、个人助手
代码专用模型 针对代码理解和生成优化 代码补全、Bug修复、代码解释、多语言编程 GitHub Copilot (基于Codex, OpenAI, 2021)、CodeLlama-70B (Meta, 2023)、DeepSeek-Coder-V2 (DeepSeek, 2024)、StarCoder2(HuggingFace, 2024) IDE插件、自动化编程、代码审查、技术文档生成
垂直领域模型 针对特定行业知识深度优化 领域专业知识问答、合规审查、专业文档生成 LawGPT (法律, 2023)、Med-PaLM 2 (医疗, Google, 2023)、BloombergGPT (金融, 2023, 50B)、FinGPT(金融开源, 2023) 法律咨询、医疗诊断辅助、金融研报分析、合规风控
多语言/中文优化模型 针对中文语料和文化语境优化 中文语义理解、古诗词生成、中文逻辑推理、中国文化知识 文心一言 (百度, 2023)、通义千问 (阿里, 2023)、ChatGLM-4 (智谱, 2024)、Baichuan-3(百川, 2024) 中文内容创作、中文客服、中文教育、文化传播
数学/科学推理模型 强化数学计算和科学推理能力 数学证明、公式推导、物理问题求解、科学问答 DeepSeek-Math (DeepSeek, 2024)、Qwen2-Math (阿里, 2024)、Minerva(Google, 2022) 数学辅导、科研辅助、工程计算、竞赛培训

五、按技术特性分类

技术架构的创新推动了大模型效率和能力的突破。

类型 技术特点 工作原理 优势 代表模型
稠密模型(Dense) 所有参数在每次前向传播中全部激活 传统的Transformer架构,每个层都参与计算 架构简单,训练稳定,易于理解和调试 GPT-3 (175B)、LLaMA-2-70B (Meta, 2023)、Qwen-72B(阿里, 2023)
稀疏/MoE模型(Mixture of Experts) 每次推理只激活部分专家网络参数 将大模型拆分为多个"专家"子网络,通过门控网络动态选择激活哪些专家 总参数量巨大但推理成本低,扩展性强,性能优异 GPT-4 (据传8×220B MoE, OpenAI, 2023)、Mixtral 8x7B (8个专家各7B, Mistral AI, 2023)、Mixtral 8x22B (Mistral AI, 2024)、DeepSeek-V2(236B总参数, 21B激活, DeepSeek, 2024)
长上下文模型 支持超长文本输入窗口(远超传统4K/8K限制) 改进位置编码(如RoPE、ALiBi)、优化注意力机制(如Ring Attention、Sparse Attention) 可处理整本书、长视频、大量代码库、复杂多轮对话 Gemini 1.5 Pro (1M tokens, Google, 2024)、Kimi (200K tokens, 月之暗面, 2024)、GLM-4-9B-1M (1M tokens, 智谱, 2024)、Claude 3(200K tokens, Anthropic, 2024)
检索增强模型(RAG-native) 原生集成外部知识检索能力 在推理时动态检索外部知识库,结合生成模型输出 减少幻觉,知识可实时更新,可解释性强 RAGFlow (开源RAG引擎, 2024)、Dify (开源LLM应用平台, 2024)、Perplexity AI(对话式搜索引擎, 2024)

六、按开源/闭源分类

开源与闭源之争是当前大模型生态的核心议题之一。

类型 特点 商业模式 优势 劣势 代表模型
闭源商业模型 模型权重不公开,仅通过API提供服务 API按量计费、企业订阅授权 性能顶尖、持续迭代、安全可控、无需运维 成本高、数据隐私风险、无法定制化、依赖供应商 GPT-4/GPT-4o (OpenAI)、Claude 3 (Anthropic)、Gemini 1.5 (Google)、文心一言 (百度)、通义千问(阿里)
开源/开放权重模型 模型权重公开,可自由下载和二次开发 开源免费+商业技术支持、云服务托管 可本地部署、数据隐私、可定制化、社区生态活跃 性能通常略逊于顶级闭源模型、需要自行运维、安全责任自负 LLaMA-3 (Meta, 2024)、Mistral-7B/8x22B (Mistral AI)、Qwen2 (阿里, 2024)、Baichuan-2 (百川)、DeepSeek-V2 (DeepSeek, 2024)、ChatGLM-4(智谱, 2024)
半开放模型 权重有限开放,需申请或签署协议 研究免费+商业授权 平衡开放性与商业利益 使用受限,合规复杂 LLaMA-2 (Meta, 需申请商业授权)、Gemma(Google, 有限开放)

七、综合对比表

模型名称 架构 参数量 训练范式 开源/闭源 特色定位 发布机构 发布时间
GPT-4 Decoder-only (MoE) ~1.8T (8×220B) 预训练+SFT+RLHF 闭源 通用最强基座 OpenAI 2023.03
GPT-4o Decoder-only (MoE) ~1.8T 预训练+SFT+RLHF 闭源 原生多模态、实时交互 OpenAI 2024.05
Claude 3.5 Sonnet Decoder-only 未公开 预训练+SFT+RLHF 闭源 超长上下文、安全性高 Anthropic 2024.06
Gemini 1.5 Pro Decoder-only 未公开 预训练+多模态SFT 闭源 1M+ tokens超长上下文 Google 2024.02
LLaMA-3-70B Decoder-only (Dense) 70B 预训练+SFT 半开放 开源最强稠密模型 Meta 2024.04
Mixtral 8x22B Decoder-only (MoE) 176B (39B激活) 预训练+SFT 开源 开源MoE标杆 Mistral AI 2024.04
Qwen2-72B Decoder-only (Dense) 72B 预训练+SFT+RLHF 开源 中文开源最强基座 阿里巴巴 2024.06
DeepSeek-V2 Decoder-only (MoE) 236B (21B激活) 预训练+SFT+RLHF 开源 极致性价比MoE DeepSeek 2024.05
Kimi Decoder-only 未公开 预训练+SFT+RLHF 闭源 200K超长上下文、中文优化 月之暗面 2023.10
ChatGLM-4 GLM (Encoder-Decoder) 未公开 预训练+SFT+RLHF 半开放 中英双语、学术背景强 智谱AI 2024.01
Phi-3-mini Decoder-only (Dense) 3.8B 预训练+SFT 开源 小模型大能力 Microsoft 2024.04
CodeLlama-70B Decoder-only (Dense) 70B 预训练+代码SFT 开源 代码生成专用 Meta 2023.08
DeepSeek-Coder-V2 Decoder-only (MoE) 236B 预训练+代码SFT 开源 开源最强代码模型 DeepSeek 2024.06
Med-PaLM 2 Decoder-only 540B 预训练+医疗SFT 闭源 医疗问答专家 Google 2023.05

八、当前发展趋势总结

  1. Decoder-only 架构持续主导:自回归生成已成为通用大模型的标准范式,Encoder-only和Encoder-Decoder架构主要应用于特定场景。

  2. MoE架构成为新趋势:通过稀疏激活实现"大模型能力、小模型成本",GPT-4、Mixtral、DeepSeek-V2等验证了MoE的可行性。

  3. 多模态融合加速:文本、图像、音频、视频的统一建模成为下一代模型的标配,GPT-4o和Gemini 1.5是典型代表。

  4. 端侧小型化突破:Phi-3、Gemma-2B等小型模型在保持较高性能的同时实现手机/IoT部署,推动AI普惠化。

  5. 长上下文竞赛:上下文窗口从4K扩展到1M+ tokens,使模型能够处理整本书、长视频、大型代码库。

  6. 领域专业化深化:基座模型+领域微调(如法律、医疗、金融)成为行业落地的主流模式,降低幻觉风险,提升专业准确性。

  7. 开源生态繁荣:LLaMA、Qwen、DeepSeek等开源模型快速追赶闭源模型,推动技术民主化和应用创新。