大模型应用开发工程师 · 学习路线(完整技术栈版)

从零到就业,每个阶段需要掌握的具体技术/工具/框架

整理日期:2026-04-25


🗺️ 全局路线图

flowchart TB subgraph P1["阶段一:基础筑基(4-6周)"] P1A["Python 工程能力"] --> P1B["ML/DL 基础"] P1B --> P1C["NLP 基础"] end subgraph P2["阶段二:LLM 核心(6-8周)"] P2A["Transformer 原理"] --> P2B["模型生态"] P2B --> P2C["Prompt 工程"] end subgraph P3["阶段三:应用开发(8-10周)"] P3A["RAG 系统"] --> P3B["Agent 开发"] P3B --> P3C["模型微调"] P3C --> P3D["多模态"] end subgraph P4["阶段四:工程落地(6-8周)"] P4A["推理部署"] --> P4B["系统架构"] P4B --> P4C["评估监控"] P4C --> P4D["安全合规"] end subgraph P5["阶段五:进阶(持续)"] P5A["前沿追踪"] --> P5B["项目实战"] end P1 --> P2 --> P3 --> P4 --> P5

阶段一:基础筑基(4-6 周)

目标

具备 Python 工程能力、ML/DL 基础、NLP 入门,为 LLM 学习打地基。

1.1 Python 工程能力(1-2 周)

flowchart LR subgraph 语言核心 Py1["异步 asyncio/aiohttp"] Py2["类型提示 typing"] Py3["数据校验 Pydantic v2"] Py4["装饰器/上下文管理器"] end subgraph Web框架 FW1["FastAPI ★首选"] FW2["Flask"] end subgraph 数据处理 DP1["pandas"] DP2["numpy"] DP3["json/jsonlines"] end subgraph 工具链 TL1["Git + GitHub"] TL2["Docker 基础"] TL3["Linux 命令行"] TL4["uv / pip 包管理"] end
必学技术 说明 优先级
FastAPI LLM 应用首选 Web 框架,支持 async、流式、WebSocket ⭐⭐⭐⭐⭐
Pydantic v2 数据验证和 Schema 定义,LangChain/LlamaIndex 底层依赖 ⭐⭐⭐⭐⭐
asyncio / aiohttp 异步编程,LLM API 并发调用必备 ⭐⭐⭐⭐
typing 类型提示,提升代码可维护性 ⭐⭐⭐⭐
Git 版本控制,代码/Prompt/配置管理 ⭐⭐⭐⭐⭐
Docker 容器化部署,LLM 服务标准交付方式 ⭐⭐⭐⭐
Linux 命令行 服务器操作必备 ⭐⭐⭐⭐
pandas / numpy 数据处理和分析 ⭐⭐⭐
httpx 异步 HTTP 客户端,调 LLM API 用 ⭐⭐⭐⭐
rich / loguru 终端美化 / 日志,开发体验提升 ⭐⭐⭐

学习清单

  • FastAPI:路由、中间件、WebSocket、流式响应(SSE)
  • Pydantic v2:BaseModel、Field、Validator
  • asyncio:async/await、Task、Semaphore 控制并发
  • Docker:Dockerfile 编写、docker-compose
  • Git:分支管理、PR 流程、.gitignore
  • Linux:文件操作、进程管理、网络调试

1.2 机器学习基础(1 周)

必学技术 说明 优先级
Scikit-learn 传统 ML 算法,理解评估指标 ⭐⭐⭐
评估指标 准确率/精确率/召回率/F1/AUC ⭐⭐⭐⭐

学习清单

  • 监督学习:分类、回归基本概念
  • 常见算法原理(不用手写,理解思想即可)
  • 模型评估指标和交叉验证
  • 过拟合/欠拟合的理解

1.3 深度学习基础(1-2 周)

必学技术 说明 优先级
PyTorch ★必学 LLM 生态的事实标准,HuggingFace 底层 ⭐⭐⭐⭐⭐
HuggingFace Transformers 预训练模型库,LLM 开发核心工具 ⭐⭐⭐⭐⭐
HuggingFace Tokenizers 分词器,理解 BPE/WordPiece ⭐⭐⭐⭐
CUDA 基础 GPU 计算概念、device 管理 ⭐⭐⭐

PyTorch 必学清单

  • Tensor 操作:创建、索引、变形、广播
  • 自动微分:autograd、backward
  • nn.Module:自定义模型、参数管理
  • 训练循环:DataLoader、Optimizer、Loss
  • GPU 管理:.to(device)、cuda()、混合精度
  • 模型保存/加载:state_dict、torch.save

Transformers 必学清单

  • pipeline:快速推理
  • AutoModel / AutoTokenizer:加载模型和分词器
  • Trainer API:训练流程
  • 模型配置:AutoConfig
  • 生成配置:GenerationConfig

1.4 NLP 基础(1 周)

必学技术 说明 优先级
分词 jieba(中文)、Tokenizers(子词) ⭐⭐⭐
Embedding Word2Vec、Sentence-BERT ⭐⭐⭐⭐
HuggingFace Datasets 数据集加载和处理 ⭐⭐⭐⭐

学习清单

  • 中文分词:jieba
  • 子词分词:BPE 算法原理
  • 词向量:Word2Vec → Sentence Embedding
  • Seq2Seq 和 Attention 机制入门

阶段二:LLM 核心知识(6-8 周)

目标

深入理解 Transformer、预训练/后训练、Prompt Engineering,熟悉主流模型和 API。

2.1 Transformer 架构深入(2 周)

flowchart TB subgraph 核心组件 SA["Self-Attention
Q/K/V 计算"] MHA["Multi-Head Attention"] FFN["FFN + SwiGLU"] PE["位置编码
RoPE / ALiBi"] LN["LayerNorm / RMSNorm"] RC["残差连接"] end subgraph 架构变体 Dec["Decoder-only (GPT/LLaMA)"] Enc["Encoder-only (BERT)"] ED["Enc-Dec (T5/BART)"] end subgraph 关键机制 KV["KV Cache"] GQA["GQA / MQA"] FA["Flash Attention"] MOE["MoE 混合专家"] end

必须掌握的概念(能画图 + 能推导 + 能讲清楚):

  • Self-Attention 完整计算流程(Q/K/V、缩放、Softmax)
  • Multi-Head Attention 的作用和实现
  • 位置编码:正弦 → RoPE → ALiBi 的演进
  • Decoder-only 的 Causal Mask 机制
  • KV Cache 原理和内存计算
  • GQA vs MHA vs MQA 的区别和取舍
  • FFN 层的作用(知识存储)
  • Pre-Norm vs Post-Norm
  • 残差连接和 LayerNorm/RMSNorm
  • Flash Attention 的 IO 感知优化思想
  • MoE 混合专家的路由机制
  • Transformer 参数量计算(12Ld² 近似公式)

动手实践

  • 用 PyTorch 手写一个 MiniGPT(2-4 层,小规模)
  • 实现 Self-Attention(不用 nn.MultiheadAttention)
  • 实现 KV Cache 的推理逻辑
  • 用 Transformers 加载 LLaMA,观察模型结构

2.2 预训练与后训练(2 周)

必学概念 说明 优先级
CLM(因果语言模型) GPT 系列的训练目标 ⭐⭐⭐⭐⭐
Scaling Laws 参数量/数据量/计算量的幂律关系 ⭐⭐⭐⭐
SFT 监督微调 指令微调的核心流程 ⭐⭐⭐⭐⭐
RLHF 奖励模型 + PPO 优化 ⭐⭐⭐⭐
DPO 直接偏好优化,绕过 RM ⭐⭐⭐⭐⭐
Tokenization BPE / SentencePiece ⭐⭐⭐⭐

学习清单

  • 预训练目标:CLM(GPT)、MLM(BERT)、Span Corruption(T5)
  • Scaling Laws:理解 loss 与 N/D/C 的关系
  • Chinchilla 最优比例:tokens ≈ 20 × 参数量
  • SFT 流程:数据格式、只计算 response 的 loss
  • RLHF 三阶段:SFT → RM 训练 → PPO 优化
  • DPO 原理:Bradley-Terry 模型、偏好数据
  • BPE 分词算法:迭代合并最高频字符对
  • SentencePiece:语言无关的分词

必读论文

  • Attention Is All You Need (2017)
  • Scaling Laws for Neural Language Models (2020)
  • Training language models to follow instructions with human feedback (2022)
  • Direct Preference Optimization (2023)
  • LLaMA: Open and Efficient Foundation Language Models (2023)

2.3 Prompt Engineering(2 周)

flowchart LR subgraph 基础技巧 PE1["Zero-Shot"] PE2["Few-Shot"] PE3["角色设定 Role"] PE4["输出格式 JSON/Markdown"] end subgraph 推理增强 RE1["Chain-of-Thought ★"] RE2["Self-Consistency"] RE3["Tree of Thoughts"] RE4["Least-to-Most"] end subgraph Agent模式 AM1["ReAct ★"] AM2["Function Calling ★"] AM3["Plan-and-Execute"] end subgraph 安全防护 SP1["Prompt Injection 防御"] SP2["输出验证"] SP3["Guardrails"] end
必学技术 说明 优先级
OpenAI API Chat Completions、Function Calling、流式 ⭐⭐⭐⭐⭐
Anthropic API Claude API、Tool Use ⭐⭐⭐⭐
CoT 推理 一步步思考,提升推理能力 ⭐⭐⭐⭐⭐
Function Calling 工具调用的标准接口 ⭐⭐⭐⭐⭐
JSON Mode / Structured Output 结构化输出 ⭐⭐⭐⭐
Prompt Injection 防御 安全必修 ⭐⭐⭐⭐

学习清单

  • OpenAI Python SDK(openai 库):Chat Completions、Streaming、Function Calling
  • Anthropic Python SDK(anthropic 库)
  • 通用 LLM 调用模式:httpx 直接调 API
  • Prompt 模板设计:角色、任务、约束、格式、示例
  • CoT / Zero-Shot CoT / Few-Shot CoT
  • Self-Consistency(多次采样投票)
  • ReAct 框架的 Prompt 设计
  • Function Calling 的参数定义和调用流程
  • JSON Mode 和 Structured Output
  • Prompt Injection 的攻击方式和防御策略
  • Prompt 版本管理(Git / Prompt Registry)

2.4 主流模型生态(1 周)

flowchart TB subgraph 闭源API OAI["OpenAI
GPT-4o / o1 / o3"] ANT["Anthropic
Claude 3.5/4"] GEM["Google
Gemini 2.0"] end subgraph 开源模型 LLAMA["Meta LLaMA 3/4"] QWEN["阿里 Qwen 2.5/3"] DS["DeepSeek V3/R1"] MISTRAL["Mistral / Mixtral"] end subgraph 中国模型 ZHIPU["智谱 GLM-4"] BAIDU["百度 文心"] MINIMAX["MiniMax"] MOON["月之暗面 Kimi"] end

必学清单

  • 各模型的 API 调用方式和参数差异
  • 各模型的能力对比(推理、代码、多语言、多模态)
  • 各模型的定价模型(按 token、按请求)
  • 各模型的上下文长度(4K/32K/128K/1M)
  • 开源模型的本地部署方式(Ollama/vLLM)
  • 模型选型决策树:任务类型 → 能力需求 → 成本约束

阶段三:应用开发实战(8-10 周)

目标

掌握 RAG、Agent、微调、多模态四大方向,能独立开发完整的 LLM 应用。

3.1 RAG 系统开发(3 周)

flowchart TB subgraph 文档处理层 DL["文档加载
LangChain DocumentLoader"] TS["文档切分
RecursiveCharacterTextSplitter"] OCR["OCR 识别
PaddleOCR / Tesseract"] end subgraph 索引层 EM["Embedding 模型
BGE-M3 / GTE-Qwen / OpenAI"] VDB["向量数据库
Milvus / Qdrant / Chroma / FAISS"] BM25["关键词索引
BM25 / Elasticsearch"] end subgraph 检索层 VS["向量搜索"] KS["关键词搜索"] HY["混合搜索 + RRF"] RR["Rerank 重排序
BGE-Reranker / Cohere"] end subgraph 生成层 QT["Query 改写 / HyDE"] PC["Prompt 构建"] LLM["LLM 生成"] CIT["引用标注"] end subgraph 评估层 RAGAS["RAGAS 评估"] TRU["TruLens"] LS["LangSmith 追踪"] end

必学框架

框架/工具 用途 优先级 说明
LangChain RAG Pipeline 编排 ⭐⭐⭐⭐⭐ 生态最大,组件最多
LlamaIndex RAG 专用框架 ⭐⭐⭐⭐⭐ RAG 更深入,Query Engine 更强
LangSmith 追踪和评估 ⭐⭐⭐⭐ LangChain 官方,调试必备
RAGAS RAG 评估框架 ⭐⭐⭐⭐ Faithfulness/Relevancy 等指标

必学组件------文档处理

技术 说明 优先级
LangChain DocumentLoader PDF/Word/网页/Markdown 加载 ⭐⭐⭐⭐⭐
Unstructured 复杂文档解析(PDF/图片/表格) ⭐⭐⭐⭐
PaddleOCR / Tesseract OCR 文字识别 ⭐⭐⭐⭐
PyMuPDF / PDFPlumber PDF 文本提取 ⭐⭐⭐⭐
Trafilatura / BeautifulSoup 网页正文提取 ⭐⭐⭐
python-docx Word 文档解析 ⭐⭐⭐
python-pptx PPT 解析 ⭐⭐

文档切分

切分器 说明 优先级
RecursiveCharacterTextSplitter LangChain 默认,递归按段落→句子→字符 ⭐⭐⭐⭐⭐
MarkdownHeaderTextSplitter 按 Markdown 标题层级切分 ⭐⭐⭐⭐
TokenTextSplitter 按 token 数切分 ⭐⭐⭐
SemanticChunker 按语义相似度变化点切分 ⭐⭐⭐⭐
LateChunking 先 Embedding 再切分,保留上下文 ⭐⭐⭐

必学组件------Embedding 模型

模型 维度 中文 说明 优先级
BGE-M3 1024 ✓✓ 多语言,多功能,开源首选 ⭐⭐⭐⭐⭐
GTE-Qwen2 1536 ✓✓ 效果顶级 ⭐⭐⭐⭐⭐
OpenAI text-embedding-3 3072 API 调用,效果好 ⭐⭐⭐⭐
Jina-embeddings-v3 1024 多语言,速度快 ⭐⭐⭐
nomic-embed-text 768 轻量,本地部署 ⭐⭐⭐

必学组件------向量数据库

数据库 类型 适用场景 优先级
Chroma 嵌入式 原型开发、本地实验 ⭐⭐⭐⭐
Milvus 分布式 生产环境、大规模 ⭐⭐⭐⭐⭐
Qdrant 独立服务 生产环境、高性能 ⭐⭐⭐⭐
FAISS 纯内存、高性能 ⭐⭐⭐⭐
Weaviate 独立服务 内置混合搜索 ⭐⭐⭐
pgvector PG 扩展 已有 PG 基础设施 ⭐⭐⭐
Pinecone 云服务 全托管、省运维 ⭐⭐⭐

必学组件------检索优化

技术 说明 优先级
向量搜索 余弦相似度 / 内积 / 欧氏距离 ⭐⭐⭐⭐⭐
BM25 关键词精确匹配 ⭐⭐⭐⭐
混合搜索 + RRF 向量 + BM25 结果融合 ⭐⭐⭐⭐⭐
Rerank Cross-Encoder 精排(BGE-Reranker、Cohere Rerank) ⭐⭐⭐⭐⭐
HyDE 用 LLM 生成假设答案再检索 ⭐⭐⭐⭐
Query 改写 同义改写 / 子问题分解 / Step-back ⭐⭐⭐⭐
Parent-Child Chunking 小 Chunk 检索,大 Chunk 送 LLM ⭐⭐⭐⭐
Contextual Retrieval Chunk 前加上下文说明(Anthropic) ⭐⭐⭐

必学组件------评估

工具 说明 优先级
RAGAS RAG 评估框架(Faithfulness/Relevancy/Precision/Recall) ⭐⭐⭐⭐⭐
TruLens RAG 可观测和评估 ⭐⭐⭐⭐
LangSmith LangChain 追踪、调试、评估 ⭐⭐⭐⭐⭐
Phoenix (Arize) LLM 可观测性 ⭐⭐⭐

RAG 学习清单

第1周:基础 RAG

  • LangChain 安装和基本使用
  • DocumentLoader:加载 PDF、Markdown、网页
  • TextSplitter:RecursiveCharacterTextSplitter 使用和调参
  • Embedding:用 OpenAI / BGE-M3 生成向量
  • Chroma:本地向量数据库的增删改查
  • 构建最基础的 RAG Chain:加载 → 切分 → 索引 → 检索 → 生成

第2周:进阶 RAG

  • 混合搜索:向量 + BM25 + RRF
  • Rerank:BGE-Reranker / Cohere Rerank 集成
  • Query 改写:让 LLM 改写查询 / HyDE
  • Parent-Child Chunking:小块检索 + 大块送入
  • RAGAS 评估:搭建评估 Pipeline
  • LangSmith 追踪:查看每一步的输入输出

第3周:生产级 RAG

  • 权限控制:元数据过滤实现文档级权限
  • 增量索引:新文档追加,不全量重建
  • 多模态 RAG:图片+文本的检索和生成
  • Graph RAG:知识图谱辅助检索
  • 性能优化:缓存、批量处理、异步
  • 部署:FastAPI + Docker 打包 RAG 服务

RAG 实战项目

项目 技术栈 说明
个人知识库问答 LangChain + Chroma + OpenAI 入门级
企业文档问答 LlamaIndex + Milvus + BGE-M3 + BGE-Reranker 生产级
多模态文档问答 Unstructured + Qwen-VL + Qdrant 进阶级
网页知识库 Trafilatura + FAISS + Rerank 实用级

3.2 Agent 智能体开发(3 周)

flowchart TB subgraph 工具层 FC["Function Calling"] TOOL["@tool 装饰器"] MCP["MCP 协议"] end subgraph 框架层 LC["LangChain Agent"] LG["LangGraph ★"] CA["CrewAI"] OA["OpenAI Assistants API"] end subgraph 能力层 REACT["ReAct 推理"] PLAN["Plan-and-Execute"] MEM["记忆系统"] MULTI["Multi-Agent"] end subgraph 工具集成 SEARCH["搜索 API
Tavily/Bing/Google"] CODE["代码执行
E2B/沙箱"] DB["数据库
SQL/NoSQL"] API["外部 API
天气/邮件/日历"] FILE["文件系统
读写/管理"] end subgraph 生产层 HITL["Human-in-the-Loop"] SAFE["安全边界"] EVAL["Agent 评估"] end

必学框架

框架/工具 用途 优先级 说明
LangChain Agent Agent 基础框架 ⭐⭐⭐⭐ 入门用
LangGraph ★核心 图编排框架,支持循环/分支/状态 ⭐⭐⭐⭐⭐ 生产首选
CrewAI Multi-Agent 协作框架 ⭐⭐⭐⭐ 多 Agent 场景
OpenAI Assistants API 官方 Agent API ⭐⭐⭐⭐ 快速原型
AutoGen (微软) Multi-Agent 对话框架 ⭐⭐⭐ 多 Agent 研究
MCP (Anthropic) 模型上下文协议,标准化工具连接 ⭐⭐⭐⭐⭐ 新标准,必学
Toolhouse 工具市场,开箱即用的工具 ⭐⭐⭐ 快速集成

必学组件------工具调用

技术 说明 优先级
OpenAI Function Calling 工具调用的事实标准 ⭐⭐⭐⭐⭐
Anthropic Tool Use Claude 的工具调用 ⭐⭐⭐⭐
LangChain @tool 工具定义装饰器 ⭐⭐⭐⭐⭐
MCP Server/Client 标准化工具协议 ⭐⭐⭐⭐⭐
MCP 工具生态 文件系统、数据库、搜索等 MCP Server ⭐⭐⭐⭐

必学组件------工具集成

工具类型 具体技术 优先级
搜索 Tavily API、Bing Search API、SerpAPI、DuckDuckGo ⭐⭐⭐⭐⭐
代码执行 E2B、Jupyter Kernel、Docker 沙箱 ⭐⭐⭐⭐
数据库 SQLDatabase (LangChain)、Text-to-SQL ⭐⭐⭐⭐
文件系统 LangChain DirectoryLoader、MCP Filesystem ⭐⭐⭐⭐
API 调用 requests/httpx、LangChain RequestsTool ⭐⭐⭐⭐
网页浏览 Playwright、Selenium、Browser Use ⭐⭐⭐⭐
邮件/日历 Gmail API、Google Calendar API ⭐⭐⭐

必学组件------记忆系统

技术 说明 优先级
ConversationBufferMemory 完整对话历史 ⭐⭐⭐⭐
ConversationSummaryMemory 对话摘要压缩 ⭐⭐⭐⭐
向量记忆 历史对话存入向量库检索 ⭐⭐⭐⭐
LangGraph State 图状态管理 ⭐⭐⭐⭐⭐

必学组件------多 Agent

框架 模式 优先级
LangGraph 图编排,Supervisor/Handoff ⭐⭐⭐⭐⭐
CrewAI 角色分工,顺序/并行/层级 ⭐⭐⭐⭐
AutoGen 多 Agent 对话 ⭐⭐⭐

Agent 学习清单

第1周:基础 Agent

  • OpenAI Function Calling:定义工具、解析调用、返回结果
  • LangChain Tool:@tool 装饰器、StructuredTool
  • LangChain Agent:create_react_agent、AgentExecutor
  • ReAct 模式:Thought → Action → Observation 循环
  • 常用工具集成:搜索(Tavily)、计算器、文件操作
  • 构建第一个 Agent:能搜索 + 能计算 + 能回答

第2周:进阶 Agent

  • LangGraph 核心概念:State、Node、Edge、Conditional Edge
  • LangGraph 构建 ReAct Agent(手动实现,不用内置)
  • LangGraph 的 Human-in-the-Loop:interrupt_before / interrupt_after
  • LangGraph 的持久化:Checkpointer、线程管理
  • Multi-Agent:Supervisor 模式、Handoff 模式
  • 记忆系统:短期(State)+ 长期(向量库)
  • MCP 协议:理解 Server/Client 架构,使用现有 MCP Server

第3周:生产 Agent

  • Agent 安全:工具权限控制、沙箱执行
  • Agent 评估:任务完成率、步骤效率、工具调用准确率
  • 错误处理:重试、降级、超时、最大步骤限制
  • 流式输出:Agent 思考过程的流式展示
  • Agent 可观测性:LangSmith 追踪每一步
  • 部署:FastAPI 封装 Agent API

Agent 实战项目

项目 技术栈 说明
搜索问答 Agent LangChain + Tavily + OpenAI 入门级
数据分析 Agent LangGraph + SQL + Matplotlib 进阶级
研究助手 Agent CrewAI + 搜索 + RAG 多 Agent
自动化运维 Agent LangGraph + Shell + 监控 API 生产级
浏览器 Agent Playwright + Vision + Function Calling 前沿级

3.3 模型微调(2 周)

flowchart TB subgraph 数据准备 FMT["数据格式
Alpaca/ShareGPT/JSONL"] CLEAN["数据清洗
去重/去噪/修正"] AUG["数据增强
Evol-Instruct/Self-Instruct"] end subgraph 微调方法 FULL["全参数微调
Full Fine-tuning"] LORA["LoRA ★最常用"] QLORA["QLoRA
4-bit + LoRA"] DORA["DoRA
方向+幅度分解"] end subgraph 工具框架 LLF["LLaMA-Factory ★一站式"] UNS["Unsloth ★高性能"] AXO["Axolotl ★灵活"] HFTRL["HuggingFace TRL"] PEFT["PEFT (LoRA库)"] end subgraph 对齐训练 SFT["SFT 监督微调"] DPO["DPO 偏好对齐"] ORPO["ORPO 单阶段对齐"] KTO["KTO 单标签对齐"] end subgraph 评估部署 EVAL["评估
MMLU/HumanEval/人工"] MERGE["模型合并
mergekit"] DEPLOY["部署
vLLM/Ollama"] end

必学框架

框架/工具 用途 优先级 说明
LLaMA-Factory ★ 一站式微调平台 ⭐⭐⭐⭐⭐ Web UI,支持 100+ 模型,最易上手
Unsloth 高性能微调 ⭐⭐⭐⭐⭐ 速度 2x,内存 -60%
HuggingFace TRL 训练 RLHF/DPO ⭐⭐⭐⭐ SFT/RLHF/DPO 训练器
PEFT LoRA/QLoRA 实现 ⭐⭐⭐⭐⭐ HuggingFace 官方 LoRA 库
Axolotl 灵活微调框架 ⭐⭐⭐⭐ 配置驱动,支持多种方法
DeepSpeed 分布式训练 ⭐⭐⭐⭐ ZeRO 1/2/3,大模型必备
mergekit 模型合并工具 ⭐⭐⭐ SLERP/TIES/DARE 合并

必学组件------数据准备

技术 说明 优先级
Alpaca 格式 instruction/input/output ⭐⭐⭐⭐⭐
ShareGPT 格式 conversations 多轮对话 ⭐⭐⭐⭐⭐
JSONL 格式 逐行 JSON,通用格式 ⭐⭐⭐⭐⭐
Evol-Instruct 迭代增加指令复杂度 ⭐⭐⭐⭐
Self-Instruct 用 LLM 生成训练数据 ⭐⭐⭐⭐
数据清洗 去重、去低质量、格式修正 ⭐⭐⭐⭐⭐
数据配比 领域:通用 = 8:2 或 9:1 ⭐⭐⭐⭐

必学组件------LoRA 系列

方法 说明 优先级
LoRA 低秩分解 ΔW = AB ⭐⭐⭐⭐⭐
QLoRA 4-bit NF4 量化 + LoRA ⭐⭐⭐⭐⭐
DoRA 方向+幅度分解 ⭐⭐⭐⭐
AdaLoRA 自适应分配各层 rank ⭐⭐⭐
LoRA+ A/B 不同学习率 ⭐⭐⭐
rsLoRA 缩放因子 α/√r ⭐⭐⭐

必学组件------对齐训练

方法 说明 优先级
SFT 监督微调,基础 ⭐⭐⭐⭐⭐
DPO 直接偏好优化,主流 ⭐⭐⭐⭐⭐
ORPO SFT+对齐单阶段 ⭐⭐⭐⭐
KTO 单标签优化 ⭐⭐⭐
RLHF (PPO) 强化学习,复杂但强大 ⭐⭐⭐⭐

微调学习清单

第1周:SFT 微调

  • LLaMA-Factory 安装和使用(Web UI)
  • 数据格式:Alpaca 格式和 ShareGPT 格式
  • 数据准备:清洗、格式化、划分
  • LoRA 配置:rank、alpha、target_modules 选择
  • QLoRA:4-bit 量化 + LoRA 在单卡上微调 7B
  • 训练监控:loss 曲线、学习率调度
  • Unsloth 使用:加速训练
  • 评估:用 lm-evaluation-harness 测试

第2周:对齐训练 + 实战

  • DPO 数据格式:chosen/rejected 对
  • DPO 训练:用 TRL 的 DPOTrainer
  • ORPO 训练:单阶段对齐
  • 模型合并:mergekit 的 SLERP/TIES
  • 数据合成:用强模型生成微调数据
  • Evol-Instruct:迭代增加数据复杂度
  • 部署微调模型:vLLM / Ollama

微调实战项目

项目 技术栈 说明
客服领域微调 LLaMA-Factory + Qwen-7B + Alpaca 格式 入门级
代码助手微调 Unsloth + DeepSeek-Coder + QLoRA 进阶级
对齐训练 TRL + DPO + 自构造偏好数据 进阶级
多任务微调 Axolotl + DeepSpeed + 多数据源 生产级

3.4 多模态应用(1-2 周)

flowchart TB subgraph 模型 QV["Qwen-VL / Qwen2.5-VL ★"] LV["LLaVA / LLaVA-NeXT"] GPT4V["GPT-4o / GPT-4V"] INTERN["InternVL"] end subgraph 视觉编码 CLIP["CLIP / SigLIP"] VIT["ViT 视觉 Transformer"] end subgraph 应用 OCR["OCR 文字识别"] VQA["视觉问答"] DOC["文档理解"] VID["视频分析"] end subgraph 语音 WHISPER["Whisper 语音识别"] TTS["TTS 语音合成"] end
必学技术 说明 优先级
Qwen-VL / Qwen2.5-VL 中文最强多模态模型 ⭐⭐⭐⭐⭐
GPT-4o API 最强闭源多模态 ⭐⭐⭐⭐⭐
LLaVA 开源多模态经典 ⭐⭐⭐⭐
CLIP 图文对齐基础模型 ⭐⭐⭐⭐
Whisper OpenAI 语音识别 ⭐⭐⭐⭐
PaddleOCR / Tesseract OCR 文字识别 ⭐⭐⭐⭐
Unstructured 多模态文档解析 ⭐⭐⭐⭐

阶段四:工程落地(6-8 周)

目标

掌握推理部署、系统架构、评估监控和安全合规,能将应用推向生产。

4.1 推理部署(2 周)

flowchart TB subgraph 量化工具 GPTQ["GPTQ
训练后量化"] AWQ["AWQ
激活感知量化"] GGUF["GGUF
llama.cpp 格式"] BNB["BitsAndBytes
训练时量化"] FP8["FP8
H100 原生"] end subgraph 推理引擎 VLLM["vLLM ★首选
PagedAttention"] TRT["TensorRT-LLM
NVIDIA 优化"] SGL["SGLang
结构化生成"] LLACPP["llama.cpp
CPU 推理"] OLLAMA["Ollama
本地运行"] end subgraph 部署工具 DOCKER["Docker"] K8S["Kubernetes"] TRITON["Triton Inference Server"] NGINX["Nginx 负载均衡"] end subgraph 优化技术 FA["Flash Attention"] GQA2["GQA/MQA"] KVQ["KV Cache 量化"] SPEC["Speculative Decoding"] PC["Prefix Caching"] CB["Continuous Batching"] end

必学工具

工具 用途 优先级 说明
vLLM ★ 高性能推理引擎 ⭐⭐⭐⭐⭐ PagedAttention,生产首选
Ollama 本地运行 LLM ⭐⭐⭐⭐⭐ 最简单,一键运行
llama.cpp CPU 推理 ⭐⭐⭐⭐ 消费级设备、边缘部署
TensorRT-LLM NVIDIA 优化 ⭐⭐⭐⭐ 最快,但绑定 NVIDIA
SGLang 结构化生成优化 ⭐⭐⭐⭐ JSON 输出、Agent 场景
GGUF 格式 量化模型格式 ⭐⭐⭐⭐ llama.cpp 使用
GPTQ / AWQ 量化方法 ⭐⭐⭐⭐ 模型压缩
Docker 容器化部署 ⭐⭐⭐⭐⭐ 标准交付方式
Kubernetes 容器编排 ⭐⭐⭐⭐ 大规模部署
Triton 推理服务器 ⭐⭐⭐ NVIDIA 官方

推理部署学习清单

  • Ollama:本地运行 LLaMA/Qwen/DeepSeek
  • vLLM:部署 OpenAI 兼容 API 服务
  • vLLM 配置:TP、PP、GPU 利用率、最大序列长度
  • GGUF 量化:用 llama.cpp 量化模型
  • GPTQ/AWQ:GPU 推理的量化方案
  • Continuous Batching 理解和配置
  • Prefix Caching 配置
  • Docker 打包 LLM 服务
  • Docker Compose 多服务编排
  • 流式输出:SSE 实现
  • 负载均衡:Nginx / Traefik

4.2 系统架构(2 周)

必学技术 说明 优先级
FastAPI LLM 服务 API 框架 ⭐⭐⭐⭐⭐
Redis 缓存、会话存储 ⭐⭐⭐⭐
RabbitMQ / Kafka 消息队列、异步处理 ⭐⭐⭐⭐
PostgreSQL + pgvector 结构化数据 + 向量存储 ⭐⭐⭐⭐
Nginx / Traefik 反向代理、负载均衡 ⭐⭐⭐⭐
Prometheus + Grafana 监控和可视化 ⭐⭐⭐⭐
LangSmith / Phoenix LLM 可观测性 ⭐⭐⭐⭐⭐
Celery 异步任务队列 ⭐⭐⭐

4.3 评估与监控(1-2 周)

必学技术 说明 优先级
RAGAS RAG 评估 ⭐⭐⭐⭐⭐
lm-evaluation-harness 模型评估基准 ⭐⭐⭐⭐
LangSmith 追踪、评估、监控 ⭐⭐⭐⭐⭐
Phoenix (Arize) LLM 可观测性 ⭐⭐⭐⭐
MT-Bench / Arena 对话评估 ⭐⭐⭐⭐
LLM-as-Judge 用 GPT-4 评估 ⭐⭐⭐⭐

4.4 安全与合规(1 周)

必学技术 说明 优先级
NeMo Guardrails (NVIDIA) 对话安全框架 ⭐⭐⭐⭐
Guardrails AI 输出验证框架 ⭐⭐⭐⭐
Llama Guard 安全分类模型 ⭐⭐⭐⭐
Rebuff Prompt Injection 检测 ⭐⭐⭐
Prompt 注入检测 关键词 + 分类器 + LLM 判断 ⭐⭐⭐⭐

阶段五:进阶提升(持续)

5.1 前沿技术追踪

方向 必学内容 优先级
推理模型 o1/o3、DeepSeek-R1、Test-Time Compute ⭐⭐⭐⭐⭐
高效架构 Mamba、RWKV、RetNet、Jamba ⭐⭐⭐⭐
长上下文 100K-1M tokens,YaRN、LongRoPE ⭐⭐⭐⭐
MoE 进阶 DeepSeek-V3 的 MoE 设计 ⭐⭐⭐⭐
多模态原生 GPT-4o、Gemini 2.0 原生多模态 ⭐⭐⭐⭐⭐
Agent 框架 MCP 协议生态、Computer Use ⭐⭐⭐⭐⭐
合成数据 Evol-Instruct、Self-Play ⭐⭐⭐⭐
模型合并 SLERP、TIES、DARE ⭐⭐⭐

5.2 开源项目参与

项目 方向 推荐参与方式
LangChain / LangGraph Agent 框架 提 Issue、修 Bug、写文档
LlamaIndex RAG 框架 贡献组件、写教程
vLLM 推理引擎 性能优化、新特性
LLaMA-Factory 微调工具 支持新模型、新方法
HuggingFace Transformers 模型库 支持新模型
Milvus / Qdrant 向量数据库 性能优化
llama.cpp CPU 推理 量化优化
OpenCLAW Agent 平台 工具开发

5.3 完整技术栈速查表

flowchart TB subgraph 编程语言 PY["Python ★核心"] TS["TypeScript(前端/Node)"] RS["Rust(高性能组件)"] end subgraph LLM调用 OAI_SDK["openai SDK"] ANT_SDK["anthropic SDK"] HTTPX["httpx 异步调用"] end subgraph 应用框架 LC2["LangChain"] LI["LlamaIndex"] LG2["LangGraph ★"] CREW["CrewAI"] end subgraph 数据层 MIL["Milvus"] QD["Qdrant"] CH["Chroma"] PG["PostgreSQL + pgvector"] REDIS["Redis"] end subgraph 模型层 HF["HuggingFace Transformers"] PEFT2["PEFT (LoRA)"] TRL["TRL (RLHF/DPO)"] LLF2["LLaMA-Factory"] end subgraph 推理层 VLLM2["vLLM"] OLL["Ollama"] LLCPP["llama.cpp"] end subgraph 部署层 DOCK["Docker"] K8S2["Kubernetes"] NGINX2["Nginx"] PROM["Prometheus + Grafana"] end subgraph 评估层 RAGAS2["RAGAS"] LS2["LangSmith"] LME["lm-evaluation-harness"] end subgraph 安全层 NEMO["NeMo Guardrails"] LG3["Llama Guard"] GA["Guardrails AI"] end

📋 完整技术栈 Checklist

阶段一 Checklist

  • Python 异步编程(asyncio)
  • FastAPI Web 框架
  • Pydantic 数据验证
  • Docker 基础
  • Git 版本控制
  • PyTorch 基础
  • HuggingFace Transformers
  • Scikit-learn 基础

阶段二 Checklist

  • Transformer 架构(能手写)
  • Attention 机制推导
  • KV Cache / GQA / Flash Attention
  • OpenAI API SDK
  • Anthropic API SDK
  • Prompt Engineering 技巧
  • Function Calling
  • 主流模型能力对比

阶段三 Checklist

  • LangChain(Chain/Agent/Tool/Memory)
  • LlamaIndex(Index/QueryEngine/Retriever)
  • LangGraph(State/Node/Edge/条件路由)
  • 向量数据库(Chroma/Milvus/Qdrant/FAISS)
  • Embedding 模型(BGE-M3/GTE-Qwen)
  • Rerank 模型(BGE-Reranker)
  • RAG 评估(RAGAS)
  • LLaMA-Factory / Unsloth 微调
  • PEFT(LoRA/QLoRA)
  • TRL(DPO/ORPO)
  • MCP 协议
  • 多模态模型(Qwen-VL/GPT-4o)

阶段四 Checklist

  • vLLM 部署
  • Ollama 本地运行
  • llama.cpp / GGUF 量化
  • GPTQ / AWQ 量化
  • Docker 容器化部署
  • Kubernetes 基础
  • Redis 缓存
  • Prometheus + Grafana 监控
  • LangSmith 追踪
  • NeMo Guardrails / Guardrails AI
  • RAGAS / lm-evaluation-harness

阶段五 Checklist

  • 推理模型(o1/R1)
  • Mamba/RWKV 新架构
  • MCP 生态工具
  • 开源项目贡献
  • 2-3 个完整项目作品
  • 技术博客/分享

⏱️ 时间规划

阶段 时长 核心产出
基础筑基 4-6 周 能写 Python + 能训简单模型
LLM 核心 6-8 周 能调 API + 能讲清原理
应用开发 8-10 周 能独立开发 RAG/Agent/微调
工程落地 6-8 周 能部署上线 + 监控运维
进阶提升 持续 能追踪前沿 + 开源贡献

有编程基础:3-4 个月可就业 零基础:6-8 个月可就业


🎯 能力模型

级别 技术栈要求 薪资参考
初级 LangChain + Chroma + OpenAI API 15-25K
中级 LangGraph + Milvus + vLLM + LoRA 微调 25-45K
高级 全栈 + 分布式 + 系统设计 + 带队 45-80K+

相关推荐
MadPrinter2 小时前
Ollama 本地部署 Google Gemma 4 26B MoE 旗舰模型
人工智能
憨波个2 小时前
【说话人日志】多说话人数据仿真 Property-Aware Simulation
人工智能·深度学习·音频·语音识别
code_pgf2 小时前
MNN Whisper 实时 ASR 工程实现
人工智能·whisper·mnn
AC赳赳老秦2 小时前
OpenClaw实战案例:用Agent实现每日工作日报自动生成+发送
人工智能·python·职场和发展·eclipse·github·deepseek·openclaw
敢敢のwings2 小时前
NVIDIA Thor学习之 |在Jetson AGX Thor上部署OpenClaw并基于Ollama的边缘AI协作实战(二)
人工智能·学习
OFIRM碳基硅基2 小时前
OFIRM-AGI-ASI官方标志图01版,发布
人工智能·agi·ofirm颠覆性
haina20192 小时前
海纳AI正式发布“面试Agent”——实现千岗千面与人机共管的智面新纪元
人工智能·面试·职场和发展
大信说财务2 小时前
2026年数电票管理生态:技术路线、市场格局与选型策略
人工智能·自然语言处理·电子发票·智能化·发票管理·财务工具
Deepoch2 小时前
Deepoc 开发板赋能工业巡检机器人自主感知与决策
人工智能·科技·机器人·巡检机器人·具身模型·deepoc