《吃透RAG：从原理到LangChain实战，彻底解决大模型幻觉问题》

吃透RAG：从原理到LangChain实战，彻底解决大模型幻觉问题

前言

现如今大模型遍地开花，我们在日常使用中总会遇到一个头疼的问题------模型幻觉。明明问的是专业问题、私有问题，模型却一本正经地胡说八道，给出看似合理实则错误的答案，这也让大模型在企业私有场景、精准问答场景中的落地大打折扣。

而RAG（检索增强生成） 就是解决这一痛点的核心方案，它不需要重新训练大模型，就能让模型依托精准的知识库给出可靠回答，堪称低成本落地大模型应用的"神器"。

这篇文章就带大家从零吃透RAG，从底层原理拆解，到基于LangChain的完整实战代码，手把手带你实现企业级RAG问答系统，新手也能轻松上手、直接落地～

一、先搞懂：大模型的"天生缺陷"

1.1 大模型的知识来源

大模型的知识，本质来源于预训练阶段投喂的海量数据集，它更像是"死记硬背"了海量文本中的知识规律，而非真正理解知识。

这就意味着，训练数据之外的知识、实时更新的知识、企业私有不公开的内部资料、行业专属细则，大模型一概不知。

1.2 什么是大模型幻觉？

所谓大模型幻觉，就是当你问大模型一个它不知道的问题时，它不会直白地说"我不知道"，反而会认认真真、逻辑自洽地胡乱编造答案，也就是AIGC场景下最常见的"一本正经地胡说八道"。

这种幻觉在日常娱乐中无伤大雅，但在企业办公、专业咨询、数据合规、技术研发等场景中，会带来极大的风险，轻则给出错误方案，重则违反企业规范，这也是RAG技术应运而生的核心原因。

1.3 RAG如何解决幻觉？

RAG全称Retrieval Augmented Generation（检索增强生成） ，核心逻辑很简单：先检索、再生成。

Retrieval（检索） ：提前搭建专属知识库，用户提问时，先从知识库中精准匹配相关内容；
Augmented（增强） ：把检索到的相关文档片段，拼接到原始提问中，丰富提问的上下文；
Generation（生成） ：大模型基于增强后的完整上下文，依托知识库内容作答，而非凭空编造；
兜底规则：如果知识库中没有匹配到相关内容，直接告知"暂无相关信息"，彻底杜绝幻觉。

二、RAG核心原理拆解

2.1 核心组件：检索器（Retriever）

检索器是RAG的"核心大脑"，负责完成语义匹配与内容检索，工作流程分为三步：

向量嵌入：提前将知识库中的内容转化为向量（Embedding），同时把用户的提问也转化为向量；
相似度计算 ：通过余弦相似度（cosine） 算法，计算提问向量与知识库向量的相似程度；
结果筛选：找出相似度最高的几段文档，作为后续生成的上下文。

2.2 核心载体：知识库

RAG的精准度，很大程度取决于知识库的质量，企业/项目中的知识库具备这些特点：

知识类型：专家经验、企业私有数据、内部文档、技术手册、行业规范等，兼顾私密性与专业性；
文件格式：支持txt、pdf、md、mp3、video等各类格式，适配多场景数据；
处理流程：大文件先切片为文档碎片（Document），再通过Embedding模型转化为向量，存入向量数据库；
存储方式：依托向量数据库存储向量数据，实现高效的语义检索，而非传统关键词匹配。

2.3 为什么要用向量表达？

传统的关键词匹配，只能做字面匹配，无法理解语义（比如搜"前端性能优化"，匹配不到"页面懒加载、防抖节流"等具体方案），而向量表达彻底解决了这个问题。

向量可以理解为用一串数字描述信息的语义特征，每个维度代表一个语义属性，举个简单例子：

设定维度：技术相关性（0=无关，1=极高）、实操性（0=理论，1=可落地）
前端优化：[0.95, 0.9] → 技术相关性高，实操性强
页面懒加载：[0.92,0.88] → 贴合前端优化，实操性强
防抖节流：[0.9, 0.85] → 属于前端优化范畴，可直接使用
后端接口：[0.2,0.7] → 与前端优化无关，仅实操性尚可

通过余弦相似度计算，就能轻松判断出页面懒加载、防抖节流和前端优化的语义高度相似，实现真正的语义搜索，这也是RAG精准检索的底层逻辑。

三、LangChain实现RAG实战

理论讲完，直接上干货！我们摒弃简单的故事案例，改用企业内部规范+前端技术文档两类实用场景，用LangChain+MemoryVectorStore（内存向量库），搭建可直接复用的RAG问答系统，代码完整可运行。

3.1 环境准备

首先安装所需依赖，执行以下命令：

bash 复制代码

pnpm i @langchain/core @langchain/openai @langchain/classic dotenv

项目根目录创建 .env文件，配置OpenAI相关密钥与地址，适配国内访问需求：

ini 复制代码

OPENAI_API_KEY=你的API密钥
OPENAI_BASE_URL=中转接口地址
MODEL_NAME=gpt-3.5-turbo
EMBEDDING_MODEL_NAME=text-embedding-ada-002

3.2 全新知识库Document设计

本次采用企业办公规范+前端技术手册双维度知识库，贴合职场与开发场景，更具实战价值，替代原有故事类Document，实用性拉满：

arduino 复制代码

import "dotenv/config";
import {
    ChatOpenAI,
    OpenAIEmbeddings
} from "@langchain/openai";
import {
    Document
} from "@langchain/core/documents";
import {
    MemoryVectorStore
} from "@langchain/classic/vectorstores/memory";

// 初始化大模型：temperature设为0，保证回答精准无发散
const model = new ChatOpenAI({
    modelName: process.env.MODEL_NAME,
    apiKey: process.env.OPENAI_API_KEY,
    configuration: {
        baseURL: process.env.OPENAI_BASE_URL
    },
    temperature: 0,
});

// 初始化向量嵌入模型
const embeddings = new OpenAIEmbeddings({
    apiKey: process.env.OPENAI_API_KEY,
    model: process.env.EMBEDDING_MODEL_NAME,
    configuration: {
        baseURL: process.env.OPENAI_BASE_URL
    },
});

// 全新实战知识库：企业规范+前端技术文档（核心替换部分）
const documents = [
    // 企业内部办公规范类文档
    new Document({
        pageContent: `公司考勤制度：工作日上下班时间为9:00-18:00，午休1小时；每月迟到早退累计超3次，每次扣款50元；外勤打卡需上传定位及工作照片，严禁代打卡，违者记过处分。`,
        metadata: {
            type: "企业制度",
            module: "考勤管理",
            level: "基础规范"
        },
    }),
    new Document({
        pageContent: `公司报销规范：日常办公报销需提供正规发票，差旅费需在返程后7个工作日内提交申请，单笔超2000元需部门经理审批，财务审核通过后3个工作日内打款至工资卡。`,
        metadata: {
            type: "企业制度",
            module: "财务报销",
            level: "基础规范"
        },
    }),
    new Document({
        pageContent: `员工请假流程：事假需提前1天在OA系统提交申请，病假需提供医院开具的病假证明，年假需提前3天申请，婚假、产假按国家法定标准执行，审批流程：员工→直属领导→人事备案。`,
        metadata: {
            type: "企业制度",
            module: "请假管理",
            level: "基础规范"
        },
    }),
    // 前端技术手册类文档
    new Document({
        pageContent: `前端性能优化方案：1. 静态资源压缩合并，减少HTTP请求；2. 图片采用懒加载+WebP格式，降低加载体积；3. 实现防抖节流，优化高频触发事件；4. 开启浏览器缓存，提升二次加载速度。`,
        metadata: {
            type: "技术文档",
            module: "前端优化",
            level: "实操指南"
        },
    }),
    new Document({
        pageContent: `Vue3常用特性：Composition API替代Options API，代码复用性更强；Teleport组件实现DOM传送；Suspense处理异步组件；Pinia替代Vuex成为官方状态管理库，使用更简洁。`,
        metadata: {
            type: "技术文档",
            module: "Vue3",
            level: "实操指南"
        },
    }),
    new Document({
        pageContent: `JavaScript防抖节流：防抖是触发后延迟执行，重复触发重置计时，适用于搜索框输入、窗口 resize；节流是固定时间内只执行一次，适用于滚动加载、按钮频繁点击。`,
        metadata: {
            type: "技术文档",
            module: "JS基础",
            level: "实操指南"
        },
    }),
];

3.3 完整RAG核心代码

javascript 复制代码

// 构建内存向量数据库，将知识库向量化存储
const vectorStore = await MemoryVectorStore.fromDocuments(
    documents,
    embeddings
)

// 创建检索器，k=3代表返回相似度最高的3段文档
const retriever = vectorStore.asRetriever({ k: 3});

// 实战测试问题：覆盖企业咨询、技术提问两类场景
const questions = [
    "公司迟到了会有什么处罚？",
    "前端怎么做性能优化？",
    "Vue3相比Vue2有哪些核心变化？"
];

// 遍历问题，执行完整RAG流程
for (const question of questions) {
    console.log("=".repeat(80));
    console.log(`用户问题: ${question}`);
    console.log("=".repeat(80));

    // 1. 检索相关文档
    const retrievedDocs = await retriever.invoke(question);
    // 2. 获取文档+相似度评分，直观展示检索精度
    const scoreResults = await vectorStore.similaritySearchWithScore(question, 3);
    console.log("\n 📄 检索到的相关文档及相似度评分");

    // 遍历输出检索结果与匹配度
    retrievedDocs.forEach((doc, i) => {
        const scoreResult = scoreResults.find(
            ([scoredDoc]) => scoredDoc.pageContent === doc.pageContent
        );
        const score = scoreResult ? scoreResult[1] : null;
        // 向量库返回距离值，1-距离=相似度，数值越高越匹配
        const similarity = score ? (1 - score).toFixed(2) : "N/A";
        console.log(`\n 文档 ${i+1} | 匹配相似度：${similarity}`);
        console.log(`文档内容：${doc.pageContent}`);
        console.log(`文档分类：${JSON.stringify(doc.metadata)}`);
    })

    // 拼接检索到的上下文，规整格式
    const context = retrievedDocs
        .map((doc,i) => `[参考片段${i+1}]\n ${doc.pageContent}`)
        .join("\n\n----\n\n");

    // 构造精准Prompt，限定回答规则，杜绝幻觉
    const prompt = `
    你是专业的企业客服+技术顾问，回答需严谨、简洁、贴合参考内容。
    仅基于下方参考片段作答，严禁编造内容；
    若参考片段无相关信息，直接回复"暂无相关信息，无法解答"。

    参考片段：
    ${context}

    用户问题：
    ${question}

    专业解答：
    `;

    // 大模型基于增强上下文生成回答
    console.log("\n 💬 精准AI回答");
    const response = await model.invoke(prompt);
    console.log(response.content);
    console.log("\n");
}

3.4 代码核心逻辑解析

知识库重构：替换原有故事内容，采用企业制度、前端技术两类实用Document，贴合职场开发场景，实战性更强；
模型初始化：分别初始化对话大模型（负责精准作答）、嵌入模型（负责文本向量化），温度设0避免发散；
向量库构建：将文档碎片转为向量存入内存库，快速实现语义检索；
检索器配置：设置k=3，每次返回3条最相关内容，兼顾信息完整性与精准度；
完整RAG链路：用户提问→语义检索→相似度打分→上下文拼接→限定生成→输出答案，全程杜绝幻觉；
兜底保障：Prompt明确限定无参考时的回复，彻底避免模型编造。

3.5 实战运行效果

执行代码后，控制台会按问题依次输出：用户问题标题→检索文档+相似度评分→AI精准回答，所有内容均依托自建知识库，无任何编造，完美解决大模型幻觉问题。

示例输出：

用户问题: 公司迟到了会有什么处罚？

📄 检索到的相关文档及相似度评分

文档 1 | 匹配相似度：0.94

文档内容：公司考勤制度：工作日上下班时间为9:00-18:00...违者记过处分。

💬 精准AI回答

工作日迟到早退每月累计超3次，每次会扣款50元。

四、RAG实战关键注意事项

k值设置：检索返回的文档数量并非越多越好，k过大会引入无关内容，k过小会缺失关键信息，常规职场/技术场景k=3~5最佳；
文档切片：大文件必须合理切片，碎片过长会冗余杂乱，过短会丢失完整语义，建议单条碎片控制在200-500字，适配大模型上下文理解；
温度参数：大模型temperature务必设为0，可最大程度降低随机性，保证回答100%贴合知识库内容；
兜底逻辑：Prompt必须明确无匹配内容时的回复，这是杜绝幻觉的最后一道防线；
向量库升级：测试用内存向量库即可，生产环境建议替换为Chroma、Pinecone、FAISS等专业向量库，支持海量数据持久化存储；
知识库维护：定期更新知识库内容，保证信息时效性，避免过时数据误导回答。

五、总结

RAG作为大模型落地的关键技术，无需繁琐的微调训练、无需大量标注数据，就能低成本解决大模型幻觉、知识滞后、私有数据无法调用三大核心痛点，是企业级大模型应用的首选方案。

本文摒弃了简单的娱乐化案例，采用职场办公、技术开发两类实用场景，从原理拆解到完整实战代码，完整梳理了RAG的核心逻辑与落地流程，哪怕是刚接触大模型的新手，也能依托LangChain快速搭建属于自己的私有RAG问答系统。

后续还可以在此基础上深度优化：接入本地文件上传解析功能、优化文档切片与分词策略、更换生产级向量库、定制专属Prompt模板、添加历史对话记忆，让RAG系统更贴合实际业务场景～

《 吃透RAG：从原理到LangChain实战，彻底解决大模型幻觉问题》