AI核心知识26——大语言模型之Embedding与Vector Database (简洁且通俗易懂版)

如果说 RAG(检索增强生成) 是大模型的"外挂图书馆",那么 Embedding(嵌入)Vector Database(向量数据库) 就是让这个图书馆能瞬间找到书的**"图书管理员"和"索引系统"**。

它们解决了一个核心问题:计算机怎么知道"苹果"和"iphone"是有关系的,而"苹果"和"袜子"是没关系的?

下面我们进行一步步拆解:


1. 🧩 Embedding(嵌入):把文字变成"坐标"

计算机根本不懂中文或英文,它只懂数字。

Embedding 就是一个翻译过程:把人类的文字(或图片),转换成一串计算机能理解的数字列表(向量)。

但这不仅仅是简单的编码(比如 A=1, B=2),这是一种**捕捉"含义"**的高级编码。

💡 形象的比喻:多维空间地图

想象一张巨大的地图。Embedding 的工作就是把每一个词扔到地图上的某一个位置。

  • 规则: 意思相近的词,在地图上的距离就 ;意思无关的词,距离就

  • 举例:

    • "猫""狗":都会被放在"宠物区",它们靠得很近。

    • "猫""毛绒玩具":有点关系,距离稍微远一点。

    • "猫""摩托车":完全没关系,一个在地图最东边,一个在最西边。

这就是 Embedding 的魔力:它把"语义相似度"变成了数学上的"距离远近"。

在技术上,一个 Embedding 出来的向量 (Vector) 长这样:

Plaintext

复制代码
[0.12, -0.98, 0.45, 0.03, ...(后面还有几百个数字)]

这串数字就是"猫"这个概念在计算机眼里的"坐标"。


2. 🗄️ Vector Database(向量数据库):存储坐标的"GPS"

既然我们把成千上万个文档、段落都变成了上面那种"坐标数字",我们需要一个地方把它们存起来。

传统的数据库(如 SQL、Excel)只能进行精确匹配

  • 你搜"小狗",它只能找到包含"小狗"这两个字的行。如果文章里写的是"幼犬",传统数据库就瞎了,因为它觉得"小狗"和"幼犬"字不一样。

向量数据库(Vector Database) 是专门为存储和查询这些"坐标"设计的。

它的特异功能叫:"最近邻搜索" (Nearest Neighbor Search)。

💡 形象的比喻:GPS 找加油站

  • 用户提问: "我家狗狗生病了怎么办?"(这句话被 Embedding 变成了一个坐标点 A)。

  • 向量数据库的工作: 它不会去比对哪个文章里有"狗狗"这个词,而是拿着坐标 A 在地图上扫描。

  • 发现: 它发现旁边有个坐标点 B 离 A 特别近。

  • 结果: 坐标点 B 对应的文章其实叫《幼犬常见疾病护理指南》。虽然没有"狗狗"这两个字,但意思最接近。

这就是向量数据库的强大之处:它搜的是"意思",而不是"字面"。


3. 🔄 它们在 RAG 中是如何配合的?

让我们把全流程串起来,你就彻底明白了:

  1. 准备阶段(入库)

    • 你把公司的 PDF 手册扔给 Embedding 模型

    • 模型把文字转换成成千上万个 向量(坐标)

    • 把这些坐标存进 向量数据库(如 Pinecone, Milvus, Chroma)。

  2. 提问阶段(搜索)

    • 你问:"怎么报销打车费?"

    • Embedding:先把你的问题也变成一个向量(坐标 X)。

    • Vector DB:迅速算出库里哪个坐标离 X 最近。找到了!是坐标 Y。

    • 提取:坐标 Y 对应的原始文字是:"员工需在每月 5 号前提交出租车发票..."

    • 生成:把这段文字喂给 ChatGPT,它回答你:"根据规定,你需要在每月 5 号前..."


4. 🚀 为什么这很重要?

在没有 Vector DB 和 Embedding 之前,搜索引擎是很笨的(基于关键词)。

  • 以前 (关键词搜索)

    • 搜:"手机没电了"

    • 结果:可能搜不到,因为手册里写的是"移动终端电量耗尽"。(字完全不匹配)

  • 现在 (向量语义搜索)

    • 搜:"手机没电了"

    • 结果:Embedding 知道"手机"≈"移动终端","没电"≈"电量耗尽"。它们的向量距离很近,所以能立刻搜出来。


总结

  • Embedding (嵌入) :把文字 变成数学坐标的翻译官。让计算机理解"意思"。

  • Vector Database (向量数据库) :存储这些坐标的高速仓库。专长是按意思找相似,而不是按字找匹配。

这两个技术是目前 AI 应用开发中最热门的基础设施

相关推荐
INDEMIND几秒前
牵手海尔、TCL,INDEMIND家用具身陪伴机器人AI平台加速家庭AI陪伴落地
人工智能·机器人·陪伴机器人
wheelmouse77882 分钟前
AI 时代的 Git 进阶术:如何优雅地让多个 Agent 并行开发
人工智能·git·ai编程
ZPC82104 分钟前
PPO (Proximal Policy Optimization) 算法模块详细拆解
人工智能·pytorch·算法·机器人
仙女修炼史5 分钟前
FCOS: Fully Convolutional One-Stage Object Detection
人工智能·目标检测·目标跟踪
大傻^7 分钟前
Spring AI Alibaba 多模态开发:集成视觉理解与视频分析能力
人工智能·spring·音视频·springai·springaialibaba·混合检索
前端摸鱼匠9 分钟前
面试题3:自注意力机制(Self-Attention)的计算流程是什么?
人工智能·ai·面试·职场和发展
出门吃三碗饭13 分钟前
CARLA: 如何在 CARLA 中回放自动驾驶场景
人工智能·机器学习·自动驾驶
Axis tech14 分钟前
第二届人形机器人半程马拉松即将于4月开赛,对比去年技术进步有哪些?
人工智能·机器人
志栋智能14 分钟前
超自动化巡检,如何成为业务稳定的“压舱石”?
大数据·运维·网络·人工智能·自动化
lifallen16 分钟前
从零推导一个现代 ReAct Agent框架
人工智能·算法·语言模型