图解LLM，入门大模型必看

福尔摩东2025-04-27 18:22

9张图解LLM

✅ 1. Transformer vs. Mixture of Experts

Transformer 每个解码器块使用固定的前馈网络；
Mixture of Experts (MoE) 通过 Router 动态选择部分专家网络，提升模型容量同时减少计算量。

✅ 2. 5种微调大语言模型（LLM）的方法（LoRA系列）

LoRA：冻结原始参数，仅训练低秩矩阵 A 和 B；
LoRA-FA：输入侧也加入变换，更灵活；
VeRA：参数更少，训练共享向量 + 偏置；
Delta-LoRA：每层引入多个 LoRA 分支，增强表达；
LoRA+：在 B 矩阵上使用更大学习率，加快收敛。

✅ 3. Traditional RAG vs. Agentic RAG

传统RAG：直接用 query 检索向量库，拼接上下文喂给 LLM；
Agentic RAG：引入 Agent，迭代重写问题、判断是否信息不足、是否需要用工具或检索源，流程更智能。

✅ 4. 5种 Agentic AI 设计模式

Reflection：先生成再反思输出，迭代优化；
Tool Use：调用外部工具补充信息；
ReAct：推理 + 动作交替进行；
Planning：先拆解任务，逐步执行；
Multi-agent：多个 Agent 协作解决复杂问题。

✅ 5. 5种 RAG 文本切分策略（Chunking）

Fixed-size：定长切分，简单易实现；
Semantic：按语义相似性拼接；
Recursive：大段内容递归再切分；
结构化切分：按文档结构如标题、章节切分；
LLM生成切分：利用LLM智能划块。

✅ 6. 5级 Agentic AI 系统能力层级

基础回复者：只用 LLM 输出结果；
Router 模式：路由器 LLM 选择最佳模型；
工具调用：LLM 能调用 API、数据库等外部资源；
多智能体：多个子 Agent 协同；
自主智能体：生成+验证器 Agent 形成闭环反馈优化。

✅ 7. Traditional RAG vs. HyDE

RAG：直接将 query 用作向量检索；
HyDE：先让 LLM 生成一段"假设文本"，用该文本向量检索，提高相关性。

✅ 8. Traditional RAG vs. Graph RAG

RAG：依赖向量库检索相关文档；
Graph RAG：用 LLM 生成知识图谱（实体+关系），结合图数据库进行图遍历，获取结构化上下文。

✅ 9. KV Caching in LLMs

Insight 1：生成新 token 只需最后的 hidden state；
Insight 2：最后 hidden state 只依赖最后一个 query 向量和之前所有的 key/value 向量；
结论：将 K/V 向量缓存起来，可避免重复计算，大幅提升推理效率。

上一篇：深度学习中的预训练与微调：从基础概念到实战应用全解析

下一篇：大模型驱动金融数据应用的实战探索

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03vue数据变化但页面不变 04KGG转MP3工具|非KGM文件|解密音频 05【2025.7.18】更新vscode后所有.vue文件template标签后报红的临时解决办法，Vue - Official 插件3.0.2导致 06干翻 Typora！MilkUp：完全免费的桌面端 Markdown 编辑器！07ChatGPT Agent 完全使用指南：2025年7月最新功能详解 08这次领先Cursor！体验了Trae 2.0 SOLO 模式，超酷！09Cursor Claude 模型无法使用的解决方法 10Claude Code用不了？来试下Qwen3-Coder加持的Qwen Code吧