AI核心知识26——大语言模型之Embedding与Vector Database (简洁且通俗易懂版)

如果说 RAG(检索增强生成) 是大模型的"外挂图书馆",那么 Embedding(嵌入)Vector Database(向量数据库) 就是让这个图书馆能瞬间找到书的**"图书管理员"和"索引系统"**。

它们解决了一个核心问题:计算机怎么知道"苹果"和"iphone"是有关系的,而"苹果"和"袜子"是没关系的?

下面我们进行一步步拆解:


1. 🧩 Embedding(嵌入):把文字变成"坐标"

计算机根本不懂中文或英文,它只懂数字。

Embedding 就是一个翻译过程:把人类的文字(或图片),转换成一串计算机能理解的数字列表(向量)。

但这不仅仅是简单的编码(比如 A=1, B=2),这是一种**捕捉"含义"**的高级编码。

💡 形象的比喻:多维空间地图

想象一张巨大的地图。Embedding 的工作就是把每一个词扔到地图上的某一个位置。

  • 规则: 意思相近的词,在地图上的距离就 ;意思无关的词,距离就

  • 举例:

    • "猫""狗":都会被放在"宠物区",它们靠得很近。

    • "猫""毛绒玩具":有点关系,距离稍微远一点。

    • "猫""摩托车":完全没关系,一个在地图最东边,一个在最西边。

这就是 Embedding 的魔力:它把"语义相似度"变成了数学上的"距离远近"。

在技术上,一个 Embedding 出来的向量 (Vector) 长这样:

Plaintext

复制代码
[0.12, -0.98, 0.45, 0.03, ...(后面还有几百个数字)]

这串数字就是"猫"这个概念在计算机眼里的"坐标"。


2. 🗄️ Vector Database(向量数据库):存储坐标的"GPS"

既然我们把成千上万个文档、段落都变成了上面那种"坐标数字",我们需要一个地方把它们存起来。

传统的数据库(如 SQL、Excel)只能进行精确匹配

  • 你搜"小狗",它只能找到包含"小狗"这两个字的行。如果文章里写的是"幼犬",传统数据库就瞎了,因为它觉得"小狗"和"幼犬"字不一样。

向量数据库(Vector Database) 是专门为存储和查询这些"坐标"设计的。

它的特异功能叫:"最近邻搜索" (Nearest Neighbor Search)。

💡 形象的比喻:GPS 找加油站

  • 用户提问: "我家狗狗生病了怎么办?"(这句话被 Embedding 变成了一个坐标点 A)。

  • 向量数据库的工作: 它不会去比对哪个文章里有"狗狗"这个词,而是拿着坐标 A 在地图上扫描。

  • 发现: 它发现旁边有个坐标点 B 离 A 特别近。

  • 结果: 坐标点 B 对应的文章其实叫《幼犬常见疾病护理指南》。虽然没有"狗狗"这两个字,但意思最接近。

这就是向量数据库的强大之处:它搜的是"意思",而不是"字面"。


3. 🔄 它们在 RAG 中是如何配合的?

让我们把全流程串起来,你就彻底明白了:

  1. 准备阶段(入库)

    • 你把公司的 PDF 手册扔给 Embedding 模型

    • 模型把文字转换成成千上万个 向量(坐标)

    • 把这些坐标存进 向量数据库(如 Pinecone, Milvus, Chroma)。

  2. 提问阶段(搜索)

    • 你问:"怎么报销打车费?"

    • Embedding:先把你的问题也变成一个向量(坐标 X)。

    • Vector DB:迅速算出库里哪个坐标离 X 最近。找到了!是坐标 Y。

    • 提取:坐标 Y 对应的原始文字是:"员工需在每月 5 号前提交出租车发票..."

    • 生成:把这段文字喂给 ChatGPT,它回答你:"根据规定,你需要在每月 5 号前..."


4. 🚀 为什么这很重要?

在没有 Vector DB 和 Embedding 之前,搜索引擎是很笨的(基于关键词)。

  • 以前 (关键词搜索)

    • 搜:"手机没电了"

    • 结果:可能搜不到,因为手册里写的是"移动终端电量耗尽"。(字完全不匹配)

  • 现在 (向量语义搜索)

    • 搜:"手机没电了"

    • 结果:Embedding 知道"手机"≈"移动终端","没电"≈"电量耗尽"。它们的向量距离很近,所以能立刻搜出来。


总结

  • Embedding (嵌入) :把文字 变成数学坐标的翻译官。让计算机理解"意思"。

  • Vector Database (向量数据库) :存储这些坐标的高速仓库。专长是按意思找相似,而不是按字找匹配。

这两个技术是目前 AI 应用开发中最热门的基础设施

相关推荐
唱响星河1 小时前
2025 年 AI 漫剧工具测评:一站式服务超省事
人工智能
openFuyao1 小时前
openFuyao两大核心项目获得GitCode G-Star认证 社区生态迈向成熟
人工智能·云原生·开源软件
Ybaocheng1 小时前
大模型第一章
人工智能·机器学习·语言模型
梵得儿SHI1 小时前
(第一篇)Spring AI 核心技术攻坚:RAG 全流程落地指南|从理论到实战构建本地知识库问答系统
人工智能·spring·大模型落地·增强生成(rag)技术·大模型存在的知识滞后·大模型存在的知识幻觉·提升回答可信度
张彦峰ZYF1 小时前
AI赋能原则3解读思考:可得性时代-AI 正在重写人类能力结构的未来
人工智能·ai·ai赋能与落地
CoovallyAIHub1 小时前
AI 项目如何避免“烂尾”?怎么选择才能让AI项目长期奔跑?
人工智能·算法·计算机视觉
hudawei9961 小时前
词嵌入中语料库矩阵和句子矩阵是怎样的?
人工智能·ai·自然语言处理·词嵌入·word embedding·词向量·语义理解
Mxsoft6191 小时前
某次数据分析偏差,发现时区设置错,修正时间戳救场!
人工智能
努力也学不会java1 小时前
【docker】Docker Register(镜像仓库)
运维·人工智能·机器学习·docker·容器