大语言模型(LLM)应用开篇 | RAG方法论概述 | 构建知识库探索

大型语言模型应用开篇 | RAG技术 | 构建知识库探索

1、大语言模型(LLM)应用开篇

现在是2025年,DeepSeek凭借卓越的技术实力脱颖而出,Agent(智能体)工作流和专业垂直领域大模型的微调成为了最热门的研究方向之一。

大语言模型的幻觉(hallucination):指通用大语言模型(LLM)在生成内容时,产生看似合理但实际上不准确或不符合事实的信息。这种现象是当前LLM面临的重要挑战之一。

幻觉产生的原因

  • 大模型的生成机制,大语言模型基于大量数据训练,并通过预测下一个词的概率来生成文本,因此可能会产生语法通顺但事实不准确的内容。
  • 训练数据的质量问题:如果训练数据中包含错误或过时的信息,模型可能会学习并传播这些错误,导致幻觉现象的出现。

缓解 LLM 幻觉的方法,也是大模型的应用方式:

  • 检索增强生成(RAG):通过从专业知识库中检索相关信息,结合用户提问,让大模型基于准确的数据生成符合事实的内容,从而减少幻觉现象。
  • 微调(Finetune):利用专业知识库对大模型进行重新训练,优化其在特定领域的理解和生成能力,使其能够更准确地回答专业问题。

几个专业名词

  • Eval:大模型评估(Evaluation),指对大模型性能、能力或效果的系统性测试与分析,是目前业界的一大难点。

  • Agent:智能体,垂直大模型的应用程序,能够解决某一方面的专业问题。

2、RAG技术

RAG(Retrieval-Augmented Generation)(检索,增强,生成):从外部知识库中检索相关信息,作为用户提问的上下文信息,一起输入到LLM中,使LLM生成符合事实内容的方法技术。可以类比为:开卷考试。

其中:

  • 检索:查询数据库
  • 增强:扩充提示词
  • 生成:结合LLM生成文本内容

2.1 基于RAG实现知识库问答系统的基本步骤

  1. 创建知识库:
    • 收集数据:收集PDF、MD等不同格式的数据
    • 数据清洗:去除噪声、重复项和无关信息
    • 文本分割:将文本分割成较小的片段chunks
    • 文本向量化:使用文本嵌入(Embedding)模型。将文本片段转成向量形式
    • 构建向量数据库
  2. 设计检索模块:
    • 问题向量化:使用文本嵌入模型,将用户的提问转成向量形式
    • 相似度检索:计算问题向量和文本片段向量的向量相似度(使用余弦相似度),找到相应的文本片段向量
    • 上下文结合:将相应的文本片段向量和问题向量结合成为提示词(prompt
  3. 生成内容:将提示词输入LLM中,生成相应的文本内容

2.2 RAG与其他技术的关系与区别

RAG 与 LangChain 的关系与区别:

使用 LangChain 技术可以构建以大语言模型为核心的工作流,可以使用 LangChain 技术实现 RAG 系统 。区别: RAG 是一个方法论,LangChain 是一个框架,LangChain 可以实现 RAG 系统,也可以实现其他围绕 LLM 的工作流系统。

RAG 与 LlamaIndex 的关系与区别:

LlamaIndex 可以将用户提供的文档转化为结构化索引,支持快速语义搜索,为 RAG 提供高质量的外部知识输入。

相关推荐
千宇宙航几秒前
闲庭信步使用SV搭建图像测试平台:第三十一课——基于神经网络的手写数字识别
图像处理·人工智能·深度学习·神经网络·计算机视觉·fpga开发
IT古董4 分钟前
【第二章:机器学习与神经网络概述】04.回归算法理论与实践 -(4)模型评价与调整(Model Evaluation & Tuning)
神经网络·机器学习·回归
onceco29 分钟前
领域LLM九讲——第5讲 为什么选择OpenManus而不是QwenAgent(附LLM免费api邀请码)
人工智能·python·深度学习·语言模型·自然语言处理·自动化
jndingxin3 小时前
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值
人工智能·opencv·计算机视觉
Sweet锦3 小时前
零基础保姆级本地化部署文心大模型4.5开源系列
人工智能·语言模型·文心一言
hie988944 小时前
MATLAB锂离子电池伪二维(P2D)模型实现
人工智能·算法·matlab
晨同学03274 小时前
opencv的颜色通道问题 & rgb & bgr
人工智能·opencv·计算机视觉
蓝婷儿5 小时前
Python 机器学习核心入门与实战进阶 Day 3 - 决策树 & 随机森林模型实战
人工智能·python·机器学习
大千AI助手5 小时前
PageRank:互联网的马尔可夫链平衡态
人工智能·机器学习·贝叶斯·mc·pagerank·条件概率·马尔科夫链
小和尚同志5 小时前
Cline | Cline + Grok3 免费 AI 编程新体验
人工智能·aigc