【AI学习】AI基础概念 -- RAG的基础概念与工作流程

文章目录

什么是LLM

  • 定义:基于Transformer架构、在海量文本数据上训练出来的、具有强大语言理解和生成能力的超大规模语言模型。
  • 核心能力:语言生成、知识问答、内容总结、代码编写等。
  • 典型代表:GPT系列、LLaMA系列、ChatGLM等。

核心概念

关键术语扫盲

  • Token化:文本如何被切分成模型能理解的单元。
  • Prompt Engineering(提示词工程):如何通过设计输入文本来引导模型输出你想要的结果。这是后端工程师必须掌握的核心技能。
  • RAG:检索增强生成。这是后端工程师最能发挥价值的领域,它结合了信息检索和LLM,解决模型"幻觉"和知识陈旧问题。
  • embedding:

RAG(检索增强生成)

基础概念

  • 是什么:检索增强生成。
  • 解决什么问题:解决了LLM的幻觉和知识陈旧问题。
  • 工作流程:
    1. 检索 :当用户提问 时,先从你的私有知识库(如数据库、文档库)中检索出最相关的信息片段。
    2. 增强 :将检索到的信息片段和用户问题一起组合成一个新的、更丰富的提示。
    3. 生成 :将增强后的提示送给LLM,让它基于这些可靠信息生成答案。
  • 关键组件:
    1. 向量数据库(存储文档的向量化表示)
    2. 嵌入模型(把文本变成向量)
    3. 检索器 (找到最相关的文档片段)
      这个流程图清晰地展示了检索增强生成(RAG) 的核心工作流。它完美结合了后端工程(API、数据库)和AI能力。

传统工程与LLM的结合

RAG架构的后端工程实现

核心数据流与组件:
  1. 文档注入管道
    • 挑战:原始数据(PDFWordWiki)是非结构化的。
    • 后端实现:一个异步处理服务。它需要完成:
    • 文件的上传 :分片上传,断点续传机制,使用MinIO进行存储
    • 文本提取与清洗 :使用 Apache Tikapdfbox 等库。
    • 智能切片 :这是关键质量点。简单的按字符长度切分会破坏语义。你需要采用递归切片、基于标记(如标题)的切片等策略。
    • 向量化 :调用 Embedding 模型 API(如 OpenAI, 或本地部署的 bge-large)将文本切片转换为向量。
    • 存入向量数据库 :将向量和元数据(如来源、切片ID)持久化。
查询响应流程:
  • 挑战:低延迟、高相关性的检索。
  • 后端实现:
    • Query理解与改写:在将用户查询向量化前,可能先用一个轻量级LLM对其进行改写、扩展或优化,以提升检索效果。
    • 多路检索与融合:为了更高的召回率,可能同时使用向量检索(语义相似)和关键词检索(如Elasticsearch,保证字面匹配),然后对结果进行融合排序。
    • Prompt模板引擎:检索到的文档片段是动态的,需要与用户问题一起填入一个预设的Prompt模板。这需要一个灵活、可配置的模板渲染服务。
    • LLM API 网关与代理:统一封装对上游多个LLM服务(如OpenAIAzure、自研模型)的调用,实现负载均衡、熔断降级、鉴权计费。
  • 技术栈选型:
    • 向量数据库:MilvusPinecone(云服务)、PgvectorPostgreSQL插件,简单场景首选)。
    • 全文检索:Elasticsearch
    • 异步任务:Spring Boot + @Async、消息队列(如 RabbitMQ / Kafka)处理文档注入。
    • 缓存:用 Redis 缓存频繁查询的检索结果或生成的最终答案,大幅降低成本和延迟。

架构图如下:

流程图说明:

这个流程图完整展示了从知识库构建到多路检索再到答案生成的完整 RAG系统工作流程:
阶段1:知识库构建(离线)

文件上传:用户通过MinIO上传文件,支持分片和断点续传

文档处理:使用Apache Tika进行文本解析和分割

内容分发:处理后的文本分发给三个不同索引路径
阶段2:多路索引建立

向量索引路径:文本 → Embedding模型 → 向量数据库

关键词索引路径:文本 → ES建立BM25倒排索引

元数据路径:提取文件元数据存入ES
阶段3:查询处理(在线)
Query理解:LLM重写/优化用户查询
Query向量化:将查询转换为向量表示

并行多路检索:同时在三类索引中搜索
阶段4:结果处理与生成

结果合并:合并三种检索路径的结果

重排去重:基于相关性排序( TopK排序)并去重
Prompt构建:构建包含上下文的Prompt

答案生成:LLM基于检索结果生成最终答案

这个架构确保了RAG系统既有高召回率多路检索 不漏结果),又有高准确率重排去重精选最佳上下文)。

  • 什么是召回阶段 :一个过程/阶段,从全量数据中初步筛选候选集 。相当于我们进行多路检索这一步骤的执行阶段。
  • 什么是召回率 :召回率是一个评估指标,衡量系统找全的能力。它的核心问题是:"所有真正相关的物品中,系统找回了多少?" 。举例说明 :如果知识库中相关的文档一共有100份,系统召回80份,且这80份强相关,那么说明当前的召回率是80%,精确率100%
多路检索优势:

向量检索 :语义理解,找到意思相关的文档
关键词检索 :精确匹配,找到包含特定词汇的文档
元数据过滤:基于属性筛选,如时间、部门、文件类型等

粗排 and 精排

粗排 and精排

相关推荐
一招定胜负几秒前
OpenCV DNN 实战:快速实现实时性别年龄检测
人工智能·opencv·dnn
dyxal2 分钟前
算子(Operator):深度学习的乐高积木
人工智能·深度学习
老百姓懂点AI4 分钟前
[数据工程] 告别脏数据:智能体来了(西南总部)AI调度官的自动化ETL清洗与AI agent指挥官的数据合成管线
人工智能·自动化·etl
Dingdangcat865 分钟前
【技术解析】TOOD-R101-FPN-MS-2x-COCO导弹目标检测模型实现与优化
人工智能·目标检测·计算机视觉
我材不敲代码6 分钟前
机器学习入门02——新手学习的第一个回归算法:线性回归
学习·机器学习·回归
●VON7 分钟前
React Native for OpenHarmony:构建高性能、高体验的 TextInput 输入表单
javascript·学习·react native·react.js·von
横木沉7 分钟前
Opencode启动时内置Bun段错误的解决笔记
人工智能·笔记·bun·vibecoding·opencode
码农三叔8 分钟前
(9-2-01)电源管理与能源系统:能耗分析与功率管理(1)步行能耗估计
人工智能·嵌入式硬件·机器人·人机交互·能源·人形机器人
●VON12 分钟前
React Native for OpenHarmony:ActivityIndicator 动画实现详解
javascript·学习·react native·react.js·性能优化·openharmony
SmartRadio13 分钟前
ESP32-S3对接豆包制作AI桌面数字收音机,桌面闹钟,桌面新闻播报器
人工智能·esp32·远程·虚拟键盘·虚拟鼠标