备忘录:RAG(检索增强生成框架)

该框架可以使模型访问超出其训练数据范围之外的信息,使得模型每次生成时可以利用检索提供外部更专业、更准确的知识,从而更好地回答用户问题。

下面直接把汪鹏《大模型 RAG 实战:RAG 原理、应用与系统构建》里的第 2 章 语言模型基础 、** 第 3 章 语言召回模型(文本向量化与检索)** 按原书结构帮你完整整理成一份清晰笔记,适合跟着 Karpathy 网课对照学习。Karpathy就是那个开发出GPT的人,他最近在YouTube上开课了,

RAG(Retrieval-Augmented Generation,检索增强生成)正式诞生于 2020 年,标志性事件是 Meta(原 Facebook AI Research)团队在 NeurIPS 2020 发表的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。

所以这是一项非常年轻的技术,几乎是伴着我大学毕业至今一直在成长的技术。


第 2 章 语言模型基础(Transformer、BERT、GPT 系)

2.1 Transformer 基础(RAG 的底层骨架)

Transformer 是当前所有大模型(BERT/GPT/LLaMA)的基础架构,RAG 的 "向量化""语义匹配" 全依赖它。

2.1.1 词嵌入(Embedding)
  • 离散单词 → 连续向量(语义相近的词向量距离近)
  • 作用:让模型能计算语义相似度(RAG 召回核心)
  • 维度:常见 512/768/1024 维
2.1.2 编码器(Encoder,BERT 类)
  • 结构:N 层(通常 12/24 层),每层包含:
    1. 多头自注意力(Multi-Head Attention)
      • 让每个词 "看" 句子里所有词,捕捉上下文依赖
      • 例:"它" 指代前面的 "猫"
    2. 前馈神经网络(Feed-Forward):非线性变换,增强表达
  • 输出:上下文相关的词向量(同词不同义,向量不同)
  • 用途:理解、编码、召回(RAG 的 embedding 模型)
2.1.3 解码器(Decoder,GPT 类)
  • 结构:N 层,除了自注意力,还有掩码自注意力(只能看前面词)
  • 特点:自回归生成(一个词一个词输出)
  • 用途:生成答案(RAG 的 LLM 部分)
2.1.4 解码头(LM Head)
  • 把解码器输出向量 → 词汇表概率
  • 取概率最大的词作为下一个输出

2.2 自动编码器(Encoder-only:ELMo、BERT)

这类模型只用电编码器 ,擅长理解 / 分类 / 匹配 / 召回

2.2.1 ELMo(早期上下文向量)
  • 双向 LSTM,输出上下文相关向量
  • 缺点:特征提取弱、并行差,被 BERT 取代
2.2.2 BERT(双向编码器,RAG 召回模型主力)
  • 核心:双向 Transformer 编码器
  • 预训练任务:
    1. MLM(掩码语言建模):随机遮词,预测被遮词 → 强语义理解
    2. NSP(下一句预测):判断两句是否连续 → 句子关系理解
  • 输出:句子 / 文本的稠密向量(Dense Embedding)
  • RAG 中的角色:文档向量化、查询向量化、语义召回

2.3 自回归模型(Decoder-only:GPT、LLaMA)

这类模型只用解码器 ,擅长生成 / 续写 / 问答,RAG 的 "生成端"。

2.3.1 GPT 系列(OpenAI)
  • GPT-1:12 层 Transformer 解码器,自回归预训练
  • GPT-2:更大参数,无监督续写,零样本能力
  • GPT-3:175B 参数,in-context learning(提示词学习)
  • 核心:上下文学习 + 自回归生成
  • RAG 角色:接收检索结果 + 问题 → 生成答案
2.3.2 LLaMA(开源 GPT 类,RAG 常用)
  • Meta 开源,7B~65B 参数
  • 结构:同 GPT(Decoder-only)
  • 优势:开源、可本地部署、适配中文
  • RAG 角色:替代 GPT 作为本地生成引擎

2.4 本章小结(RAG 视角)

  • Encoder(BERT) → 负责理解与召回(把文档 / 问题变成向量)
  • Decoder(GPT/LLaMA) → 负责生成与回答(把检索结果 + 问题变成答案)
  • RAG = BERT 类召回模型 + GPT 类生成模型 的组合系统

第 3 章 语言召回模型(RAG 核心:文本向量化 + 检索)

(原书第 3 章:RAG 中的文本向量化与检索模型)

3.1 召回模型的核心任务

  • 给定 查询 Query ,从 知识库 Document 中找出 Top-K 最相关片段
  • 本质:文本相似度计算 + 高效检索

3.2 文本向量化模型(Embedding Model)

变长文本 → 定长稠密向量 ,保证语义相似 → 向量距离近

3.2.1 稀疏向量模型(传统检索,如 TF-IDF、BM25)
  • 特点:基于词频、无语义理解、速度快
  • 原理:词出现次数越高,权重越大;不考虑上下文
  • 缺点:无法理解同义词 / 多义词(如 "电脑"≈"计算机",稀疏模型不匹配)
  • RAG 角色:基础召回、速度快、作为混合搜索的一路
3.2.2 稠密向量模型(Dense Embedding,RAG 主流)

基于 BERT/RoBERTa/SimBERT 等 Encoder 模型,输出上下文相关稠密向量

  • 训练目标:语义相似度最大化
    • 输入:(Query, 正相关 Doc, 负相关 Doc)
    • 损失:让 Query 与正 Doc 向量距离 < 与负 Doc 距离
  • 代表模型:
    • BERT-base:768 维,通用强
    • all-MiniLM:轻量、快、适合本地
    • text-embedding-ada-002:OpenAI 闭源,效果好
  • RAG 优势:理解语义、匹配同义词、召回更准
3.2.3 混合检索(Sparse + Dense,工业界最优)
  • 同时用 BM25(稀疏)+ 稠密向量(Dense) 两路召回
  • 融合分数:最终相似度 = α・BM25 分数 + β・Dense 相似度
  • 效果:兼顾速度、语义、关键词匹配,解决单一模型短板

3.3 向量检索引擎(Vector Database)

稠密向量召回必须依赖专用向量库(普通数据库无法高效算相似度)。

3.3.1 核心原理:近似最近邻(ANN)
  • 问题:100 万 768 维向量,暴力算相似度太慢(O (N))
  • 解决:ANN 算法 (如 FAISS、IVF、HNSW)
    • 先聚类分桶 → 只在相似桶内搜索 → 速度提升 10~100 倍
    • 牺牲极小精度,换百万级向量毫秒级召回
3.3.2 主流开源向量库(RAG 常用)
  • FAISS(Meta):CPU/GPU 高效,适合小规模
  • Milvus(Zilliz):分布式、高可用、工业级
  • Chroma:轻量、本地部署、适合原型
  • PGVector:PostgreSQL 插件,适合已有 PG 栈

3.4 召回模型评估指标

  • Recall@K:前 K 个结果中包含正确文档的概率(RAG 优先看召回率)
  • Precision@K:前 K 个结果中相关文档的比例
  • MRR:正确文档在结果列表中的平均排名

3.5 本章小结(RAG 实战要点)

  • 稀疏召回(BM25):快、关键词准、无语义
  • 稠密召回(BERT 类):慢一点、语义准、理解上下文
  • 工业级 RAGBM25 + 稠密向量 + 向量库 ANN 检索 的混合方案

可以直接对照 Karpathy 网课的部分

  • Karpathy 讲 Transformer/BERT/GPT 架构 → 对应本书第 2 章
  • Karpathy 讲 Embedding / 向量检索 / 语义匹配 → 对应本书第 3 章
  • RAG 整体 = Encoder(召回)+ Decoder(生成) 的流水线

TIPS:

Karpathy相关

GitHub:

https://gist.github.com/karpathy

https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f

YouTube:

https://www.youtube.com/@AndrejKarpathy/videos

相关推荐
Java小白笔记1 小时前
OpenClaw 实战方法论
java·开发语言·人工智能·ai·全文检索·ai编程·ai写作
Tigerbot2 小时前
虎博科技CEO卢鑫:GEO方法论提出者,AI Marketing 与 AI GEO专家
大数据·人工智能·科技
光锥智能2 小时前
北京车展看点:斑马用双引擎定义下一代座舱
人工智能
IT_陈寒2 小时前
Vue的v-for里用index当key,我被自己坑惨了
前端·人工智能·后端
mit6.8242 小时前
评价GPT-5.5
人工智能
沅柠-AI营销2 小时前
AI 模型迭代洗牌:DeepSeek V4 重构 GEO 逻辑,企业该如何调整
人工智能·重构·知识图谱·流量运营·品牌运营·geo优化·deepseek v4
IT观测2 小时前
创想三维携AI教育全矩阵亮相第87届教装展,构建3D打印教育新范式
人工智能·3d·矩阵
xcbrand2 小时前
快消品品牌策划公司哪家好
大数据·人工智能·python