【AI学习】AI基础概念 -- RAG的基础概念与工作流程

文章目录

什么是LLM

  • 定义:基于Transformer架构、在海量文本数据上训练出来的、具有强大语言理解和生成能力的超大规模语言模型。
  • 核心能力:语言生成、知识问答、内容总结、代码编写等。
  • 典型代表:GPT系列、LLaMA系列、ChatGLM等。

核心概念

关键术语扫盲

  • Token化:文本如何被切分成模型能理解的单元。
  • Prompt Engineering(提示词工程):如何通过设计输入文本来引导模型输出你想要的结果。这是后端工程师必须掌握的核心技能。
  • RAG:检索增强生成。这是后端工程师最能发挥价值的领域,它结合了信息检索和LLM,解决模型"幻觉"和知识陈旧问题。
  • embedding:

RAG(检索增强生成)

基础概念

  • 是什么:检索增强生成。
  • 解决什么问题:解决了LLM的幻觉和知识陈旧问题。
  • 工作流程:
    1. 检索 :当用户提问 时,先从你的私有知识库(如数据库、文档库)中检索出最相关的信息片段。
    2. 增强 :将检索到的信息片段和用户问题一起组合成一个新的、更丰富的提示。
    3. 生成 :将增强后的提示送给LLM,让它基于这些可靠信息生成答案。
  • 关键组件:
    1. 向量数据库(存储文档的向量化表示)
    2. 嵌入模型(把文本变成向量)
    3. 检索器 (找到最相关的文档片段)
      这个流程图清晰地展示了检索增强生成(RAG) 的核心工作流。它完美结合了后端工程(API、数据库)和AI能力。

传统工程与LLM的结合

RAG架构的后端工程实现

核心数据流与组件:
  1. 文档注入管道
    • 挑战:原始数据(PDFWordWiki)是非结构化的。
    • 后端实现:一个异步处理服务。它需要完成:
    • 文件的上传 :分片上传,断点续传机制,使用MinIO进行存储
    • 文本提取与清洗 :使用 Apache Tikapdfbox 等库。
    • 智能切片 :这是关键质量点。简单的按字符长度切分会破坏语义。你需要采用递归切片、基于标记(如标题)的切片等策略。
    • 向量化 :调用 Embedding 模型 API(如 OpenAI, 或本地部署的 bge-large)将文本切片转换为向量。
    • 存入向量数据库 :将向量和元数据(如来源、切片ID)持久化。
查询响应流程:
  • 挑战:低延迟、高相关性的检索。
  • 后端实现:
    • Query理解与改写:在将用户查询向量化前,可能先用一个轻量级LLM对其进行改写、扩展或优化,以提升检索效果。
    • 多路检索与融合:为了更高的召回率,可能同时使用向量检索(语义相似)和关键词检索(如Elasticsearch,保证字面匹配),然后对结果进行融合排序。
    • Prompt模板引擎:检索到的文档片段是动态的,需要与用户问题一起填入一个预设的Prompt模板。这需要一个灵活、可配置的模板渲染服务。
    • LLM API 网关与代理:统一封装对上游多个LLM服务(如OpenAIAzure、自研模型)的调用,实现负载均衡、熔断降级、鉴权计费。
  • 技术栈选型:
    • 向量数据库:MilvusPinecone(云服务)、PgvectorPostgreSQL插件,简单场景首选)。
    • 全文检索:Elasticsearch
    • 异步任务:Spring Boot + @Async、消息队列(如 RabbitMQ / Kafka)处理文档注入。
    • 缓存:用 Redis 缓存频繁查询的检索结果或生成的最终答案,大幅降低成本和延迟。

架构图如下:

流程图说明:

这个流程图完整展示了从知识库构建到多路检索再到答案生成的完整 RAG系统工作流程:
阶段1:知识库构建(离线)

文件上传:用户通过MinIO上传文件,支持分片和断点续传

文档处理:使用Apache Tika进行文本解析和分割

内容分发:处理后的文本分发给三个不同索引路径
阶段2:多路索引建立

向量索引路径:文本 → Embedding模型 → 向量数据库

关键词索引路径:文本 → ES建立BM25倒排索引

元数据路径:提取文件元数据存入ES
阶段3:查询处理(在线)
Query理解:LLM重写/优化用户查询
Query向量化:将查询转换为向量表示

并行多路检索:同时在三类索引中搜索
阶段4:结果处理与生成

结果合并:合并三种检索路径的结果

重排去重:基于相关性排序( TopK排序)并去重
Prompt构建:构建包含上下文的Prompt

答案生成:LLM基于检索结果生成最终答案

这个架构确保了RAG系统既有高召回率多路检索 不漏结果),又有高准确率重排去重精选最佳上下文)。

  • 什么是召回阶段 :一个过程/阶段,从全量数据中初步筛选候选集 。相当于我们进行多路检索这一步骤的执行阶段。
  • 什么是召回率 :召回率是一个评估指标,衡量系统找全的能力。它的核心问题是:"所有真正相关的物品中,系统找回了多少?" 。举例说明 :如果知识库中相关的文档一共有100份,系统召回80份,且这80份强相关,那么说明当前的召回率是80%,精确率100%
多路检索优势:

向量检索 :语义理解,找到意思相关的文档
关键词检索 :精确匹配,找到包含特定词汇的文档
元数据过滤:基于属性筛选,如时间、部门、文件类型等

粗排 and 精排

粗排 and精排

相关推荐
LaughingZhu几秒前
Product Hunt 每日热榜 | 2026-03-22
大数据·数据库·人工智能·经验分享·搜索引擎
无聊大侠hello world3 分钟前
黑马大模型 RAG 与 Agent 实战学习笔记——智扫通 Agent 项目
笔记·学习
醉颜凉3 分钟前
Seal^_^【送书活动第8期】——《ChatGLM3大模型本地化部署、应用开发与微调》
人工智能·职场和发展·送书活动·chatglm3大模型
进击的野人6 分钟前
从AI“说人话”到“说结构话”:Spring AI结构化输出实战解析
人工智能·spring·ai编程
jay神6 分钟前
基于深度学习的车辆识别收费管理系统
人工智能·深度学习·yolo·目标检测·毕业设计
进击的雷神10 分钟前
Trae AI IDE 完全指南:从入门到精通
大数据·ide·人工智能·trae
汀丶人工智能12 分钟前
基于 Milvus 构建企业级 RAG 问答系统:从原理到实践-CSDN博客
人工智能
工边页字12 分钟前
为什么 RAG系统里,Embedding成本往往远低于 LLM成本,但很多公司仍然疯狂优化 Embedding?
前端·人工智能·后端
9523613 分钟前
初识多线程
java·开发语言·jvm·后端·学习·多线程
宇擎智脑科技13 分钟前
A2A 协议规范深度剖析:三层架构、数据模型、操作语义与协议绑定
人工智能·a2a