LLM（Large Language Model）系统学习路线清单

第一阶段：LLM核心基础知识（打牢理论根基）

1.1 Word2Vec, RNN, LSTM, Seq2Seq 技术概览

1.1.1 Word2Vec：核心思想（分布式表示假设）、两种实现范式（Skip-gram & CBOW）、优缺点分析及典型应用场景
1.1.2 RNN（Recurrent Neural Network）：基础网络结构、时序依赖建模原理、梯度消失/梯度爆炸问题根源剖析
1.1.3 LSTM（Long Short-Term Memory）：门控机制核心设计（Input Gate、Forget Gate、Output Gate）、Cell State 工作原理、解决RNN长序列建模缺陷的核心逻辑
1.1.4 GRU（Gated Recurrent Unit）：LSTM轻量化变体结构、Reset Gate & Update Gate 功能解析、性能与计算效率对比
1.1.5 Seq2Seq：Encoder-Decoder 经典架构、核心应用场景（机器翻译、文本摘要、对话生成）、固有局限性分析
1.1.6 技术演进脉络：各模型在LLM发展历程中的承上启下作用

1.2 Attention 机制

1.2.1 基础Attention机制：核心设计理念（聚焦关键信息）、数学原理与计算流程拆解
1.2.2 Self-Attention：定义与核心价值、单头Self-Attention计算步骤、与传统Attention的本质区别
1.2.3 Attention机制的技术优势：长序列依赖建模突破、并行计算潜力释放、模型表达能力提升逻辑
1.2.4 Attention在Seq2Seq中的落地：Bahdanau Attention 与 Luong Attention 对比分析

1.3 Transformer结构（LLM核心架构基石）

1.3.1 Transformer 整体架构：Encoder-Decoder 协同工作流程、端到端建模逻辑
1.3.2 Encoder 核心组件：Multi-Head Attention、Layer Normalization、Feed-Forward Network 设计细节
1.3.3 Decoder 核心组件：Masked Multi-Head Attention、Encoder-Decoder Attention、Residual Connection 作用机制
1.3.4 Transformer 关键技术细节：Positional Encoding 实现方式、Token Embedding 设计、输出层 Softmax 解码逻辑
1.3.5 性能对比：Transformer vs RNN/LSTM（并行性、长序列建模能力、训练效率）

第二阶段：LLM训练全流程（掌握模型构建与优化逻辑）

2.1 LLM预训练：语料、词表、模型结构，模型参数与计算量

2.1.1 预训练语料准备：语料来源（公开数据集/私有领域数据）、语料筛选与清洗标准、语料多样性与规模对预训练效果的影响
2.1.2 词表构建：分词算法选型（BPE/WordPiece/SentencePiece）、词表大小选择依据、特殊Token（[CLS]/[SEP]/[PAD]/[MASK]）设计逻辑
2.1.3 预训练模型结构选型：Transformer变体架构对比（Encoder-only/Decoder-only/Encoder-Decoder）、GPT/BERT系列架构设计差异
2.1.4 预训练任务设计：Masked Language Modeling (MLM)、Causal Language Modeling (CLM)、对比学习类预训练任务
2.1.5 模型参数与计算量：参数规模划分标准（小/中/大/超大模型）、FLOPs 计算方法、算力需求与训练效率优化策略
2.1.6 预训练工程实践：训练框架选型（PyTorch/TensorFlow/Megatron-LM）、超参数调优、梯度累积与分布式训练（Data Parallel/Model Parallel）

2.2 LLM微调（适配特定下游任务）

2.2.1 微调核心逻辑：预训练模型迁移学习原理、微调 vs 预训练的本质区别
2.2.2 Full Fine-tuning：适用场景、技术优缺点、算力与标注数据量要求
2.2.3 高效微调方法：LoRA（Low-Rank Adaptation）、Prefix Tuning、Adapter Tuning、BitFit 等轻量化方案原理与对比
2.2.4 微调数据准备：标注数据质量标准、数据增强方法、数据分布对微调效果的影响
2.2.5 微调流程与评估：训练Pipeline设计、评估指标选型、过拟合与欠拟合解决方案

2.3 LLM偏好对齐（贴合人类意图与价值观）

2.3.1 偏好对齐核心目标：模型输出的实用性、安全性、伦理合规性
2.3.2 主流对齐技术方案：
- RLHF（Reinforcement Learning from Human Feedback）：三阶段流程（SFT → RM训练 → PPO优化）
- RLAIF（Reinforcement Learning from AI Feedback）：技术原理、解决人类标注成本高的核心优势
- DPO（Direct Preference Optimization）：简化RLHF流程、无需训练RM的技术路径
2.3.3 对齐效果评估：人工评估维度、自动评估指标、对齐效果的量化与定性分析方法
2.3.4 安全对齐专项：有害内容过滤机制、偏见缓解策略、事实性保障技术

第三阶段：提示工程Prompting（解锁LLM应用能力）

3.1 Prompt工程技术简介

3.1.1 Prompt Engineering 定义：通过精准设计输入指令，引导LLM输出预期结果的技术方法论
3.1.2 Prompt Engineering 核心价值：零微调提升模型性能、降低LLM应用门槛、适配多样化下游任务
3.1.3 Prompt Engineering 适用场景：文本生成、知识问答、逻辑推理、代码生成、多轮对话等
3.1.4 模型与Prompt的适配性：模型规模对Prompt效果的影响、不同LLM架构的Prompt设计差异

3.2 Prompt工程基础方法

3.2.1 指令清晰化：明确任务目标、指定输出格式、约束回复边界
3.2.2 角色设定（Role Prompting）：为模型赋予特定身份（如Senior Software Engineer、Data Scientist）、提升输出专业性
3.2.3 上下文管理：Context Window 长度选择、关键信息前置原则、冗余信息剔除技巧
3.2.4 关键词强调：通过格式标记突出核心需求、引导模型聚焦关键信息
3.2.5 基础Prompt Template 设计与复用

3.3 Prompt经典方法

3.3.1 Zero-shot Learning：无需示例直接下达指令、适用简单任务场景
3.3.2 Few-shot Learning：提供少量Demonstration引导模型、提升复杂任务效果
3.3.3 Chain of Thought (CoT)：引导模型分步推理、提升逻辑计算与复杂问答能力
3.3.4 进阶CoT技术：Few-shot CoT、Self-Consistency、Tree of Thought (ToT)、Chain of Verification (CoVe)
3.3.5 Prompt优化技巧：迭代式Prompt调整、错误反馈修正机制、多轮Prompt交互策略

3.4 Prompt案例

3.4.1 文本生成类：文章创作、诗歌写作、广告文案生成的Prompt设计
3.4.2 知识问答类：事实查询、专业知识解答、多文档整合问答的Prompt案例
3.4.3 逻辑推理类：数学计算、代码调试、案例拆解的Prompt设计
3.4.4 代码开发类：代码生成、Bug修复、代码重构、技术文档编写的Prompt案例
3.4.5 文本编辑类：语法纠错、风格转换、文本摘要与扩写的Prompt案例
3.4.6 多轮对话类：连续问答、场景模拟、个性化交互的Prompt设计

第四阶段：多模态大模型（拓展LLM跨模态能力）

4.1 多模态大模型基础概念与应用场景

4.1.1 多模态定义：主流模态类型（Text、Image、Audio、Video、Speech）、跨模态理解与生成核心目标
4.1.2 多模态大模型发展历程：从单模态到多模态的技术演进、关键里程碑事件
4.1.3 典型应用场景：
- 图文交互：Image Captioning、Text-to-Image Generation、Visual Question Answering (VQA)
- 音视频交互：Speech-to-Text、Video Summarization、Audio Generation
- 跨模态创作：Text-to-Video、Speech-driven Digital Human
- 实用工具：多模态文档分析、跨模态检索系统

4.2 多模态大模型关键技术

4.2.1 模态特征提取：各模态专属Encoder（Image CNN/Vision Transformer、Audio MFCC/Speech Encoder）
4.2.2 模态融合技术：
- 融合时机划分：Early Fusion、Late Fusion、Hybrid Fusion
- 融合机制划分：Cross-Attention Fusion、Self-Attention Fusion、Adapter Fusion
4.2.3 跨模态对齐：模态间语义映射关系、对齐损失函数设计、图文/音文对齐技术方案
4.2.4 多模态预训练任务：图文对比学习（Contrastive Language-Image Pretraining）、图像掩码建模、跨模态生成任务
4.2.5 多模态模型轻量化：参数共享、模型压缩、量化感知训练、端侧推理优化策略

4.3 多模态大模型前沿动态

4.3.1 主流模型进展：GPT-4V、Gemini、BLIP系列、LLaVA 等模型技术特性与版本迭代
4.3.2 技术突破方向：多模态统一建模、小样本跨模态迁移、实时多模态交互、模态无关通用表示
4.3.3 落地挑战与解决方案：模态偏差缓解、生成内容真实性保障、算力成本优化、跨模态知识对齐
4.3.4 未来趋势：Full-modal大模型、端侧多模态模型、行业定制化多模态解决方案

第五阶段：AI Agent概述（探索LLM自主决策与协作能力）

5.1 Agent架构

5.1.1 AI Agent 核心定义：具备感知、决策、执行、反馈能力的自主智能体
5.1.2 经典架构：Perception Module → Planning Module → Execution Module → Feedback Module 闭环流程
5.1.3 主流Agent框架：AutoGPT、MetaGPT、LangChain Agent、ChatGPT Plugin Agent 架构对比
5.1.4 架构设计关键要素：目标分解能力、记忆机制（Short-term Memory/Long-term Memory）、Self-Reflection 能力

5.2 工具学习（Tool Learning）

5.2.1 Tool Learning 核心思想：让Agent自主选择、调用外部工具完成自身能力边界外的任务
5.2.2 常见工具类型：Search Tools（百度/Google）、Calculation Tools（计算器/Code Interpreter）、Office Tools（文档处理/表格分析）、API Tools（第三方平台接口）
5.2.3 工具调用流程：Task Recognition → Tool Selection → Parameter Generation → Tool Execution → Result Parsing → Feedback Optimization
5.2.4 Tool Learning 优化策略：工具适配性提升、错误处理机制、多工具组合调用、工具能力评估

5.3 多智能体（Multi-Agent）

5.3.1 Multi-Agent System 定义：多个AI Agent通过协同/竞争完成复杂任务的系统架构
5.3.2 Multi-Agent 交互模式：
- 协作模式：分工协作、信息共享，完成复杂任务（如团队开发、项目管理、科研协作）
- 竞争模式：对抗训练、博弈交互，提升模型能力（如棋类对战、策略模拟）
- 混合模式：协作+竞争结合，适配复杂动态场景
5.3.3 Multi-Agent 通信机制：消息传递协议、公共知识库、交互语言设计、意图对齐机制
5.3.4 Multi-Agent 应用场景：群体创作、智能客服团队、工业流程协同、多智能体仿真系统
5.3.5 Multi-Agent 发展挑战：协同效率优化、冲突解决机制、全局目标对齐、资源分配策略