AI核心知识26——大语言模型之Embedding与Vector Database (简洁且通俗易懂版)

如果说 RAG(检索增强生成) 是大模型的"外挂图书馆",那么 Embedding(嵌入)Vector Database(向量数据库) 就是让这个图书馆能瞬间找到书的**"图书管理员"和"索引系统"**。

它们解决了一个核心问题:计算机怎么知道"苹果"和"iphone"是有关系的,而"苹果"和"袜子"是没关系的?

下面我们进行一步步拆解:


1. 🧩 Embedding(嵌入):把文字变成"坐标"

计算机根本不懂中文或英文,它只懂数字。

Embedding 就是一个翻译过程:把人类的文字(或图片),转换成一串计算机能理解的数字列表(向量)。

但这不仅仅是简单的编码(比如 A=1, B=2),这是一种**捕捉"含义"**的高级编码。

💡 形象的比喻:多维空间地图

想象一张巨大的地图。Embedding 的工作就是把每一个词扔到地图上的某一个位置。

  • 规则: 意思相近的词,在地图上的距离就 ;意思无关的词,距离就

  • 举例:

    • "猫""狗":都会被放在"宠物区",它们靠得很近。

    • "猫""毛绒玩具":有点关系,距离稍微远一点。

    • "猫""摩托车":完全没关系,一个在地图最东边,一个在最西边。

这就是 Embedding 的魔力:它把"语义相似度"变成了数学上的"距离远近"。

在技术上,一个 Embedding 出来的向量 (Vector) 长这样:

Plaintext

复制代码
[0.12, -0.98, 0.45, 0.03, ...(后面还有几百个数字)]

这串数字就是"猫"这个概念在计算机眼里的"坐标"。


2. 🗄️ Vector Database(向量数据库):存储坐标的"GPS"

既然我们把成千上万个文档、段落都变成了上面那种"坐标数字",我们需要一个地方把它们存起来。

传统的数据库(如 SQL、Excel)只能进行精确匹配

  • 你搜"小狗",它只能找到包含"小狗"这两个字的行。如果文章里写的是"幼犬",传统数据库就瞎了,因为它觉得"小狗"和"幼犬"字不一样。

向量数据库(Vector Database) 是专门为存储和查询这些"坐标"设计的。

它的特异功能叫:"最近邻搜索" (Nearest Neighbor Search)。

💡 形象的比喻:GPS 找加油站

  • 用户提问: "我家狗狗生病了怎么办?"(这句话被 Embedding 变成了一个坐标点 A)。

  • 向量数据库的工作: 它不会去比对哪个文章里有"狗狗"这个词,而是拿着坐标 A 在地图上扫描。

  • 发现: 它发现旁边有个坐标点 B 离 A 特别近。

  • 结果: 坐标点 B 对应的文章其实叫《幼犬常见疾病护理指南》。虽然没有"狗狗"这两个字,但意思最接近。

这就是向量数据库的强大之处:它搜的是"意思",而不是"字面"。


3. 🔄 它们在 RAG 中是如何配合的?

让我们把全流程串起来,你就彻底明白了:

  1. 准备阶段(入库)

    • 你把公司的 PDF 手册扔给 Embedding 模型

    • 模型把文字转换成成千上万个 向量(坐标)

    • 把这些坐标存进 向量数据库(如 Pinecone, Milvus, Chroma)。

  2. 提问阶段(搜索)

    • 你问:"怎么报销打车费?"

    • Embedding:先把你的问题也变成一个向量(坐标 X)。

    • Vector DB:迅速算出库里哪个坐标离 X 最近。找到了!是坐标 Y。

    • 提取:坐标 Y 对应的原始文字是:"员工需在每月 5 号前提交出租车发票..."

    • 生成:把这段文字喂给 ChatGPT,它回答你:"根据规定,你需要在每月 5 号前..."


4. 🚀 为什么这很重要?

在没有 Vector DB 和 Embedding 之前,搜索引擎是很笨的(基于关键词)。

  • 以前 (关键词搜索)

    • 搜:"手机没电了"

    • 结果:可能搜不到,因为手册里写的是"移动终端电量耗尽"。(字完全不匹配)

  • 现在 (向量语义搜索)

    • 搜:"手机没电了"

    • 结果:Embedding 知道"手机"≈"移动终端","没电"≈"电量耗尽"。它们的向量距离很近,所以能立刻搜出来。


总结

  • Embedding (嵌入) :把文字 变成数学坐标的翻译官。让计算机理解"意思"。

  • Vector Database (向量数据库) :存储这些坐标的高速仓库。专长是按意思找相似,而不是按字找匹配。

这两个技术是目前 AI 应用开发中最热门的基础设施

相关推荐
buttonupAI5 小时前
今日Reddit各AI板块高价值讨论精选(2025-12-20)
人工智能
2501_904876485 小时前
2003-2021年上市公司人工智能的采纳程度测算数据(含原始数据+计算结果)
人工智能
竣雄5 小时前
计算机视觉:原理、技术与未来展望
人工智能·计算机视觉
救救孩子把6 小时前
44-机器学习与大模型开发数学教程-4-6 大数定律与中心极限定理
人工智能·机器学习
Rabbit_QL6 小时前
【LLM评价指标】从概率到直觉:理解语言模型的困惑度
人工智能·语言模型·自然语言处理
墨风如雪6 小时前
没开挂!英伟达开源“通玩千款游戏”的AI模型,只为给机器人造个脑子
aigc
呆萌很6 小时前
HSV颜色空间过滤
人工智能
roman_日积跬步-终至千里6 小时前
【人工智能导论】02-搜索-高级搜索策略探索篇:从约束满足到博弈搜索
java·前端·人工智能
FL16238631296 小时前
[C#][winform]基于yolov11的淡水鱼种类检测识别系统C#源码+onnx模型+评估指标曲线+精美GUI界面
人工智能·yolo·目标跟踪
爱笑的眼睛117 小时前
从 Seq2Seq 到 Transformer++:深度解构与自构建现代机器翻译核心组件
java·人工智能·python·ai