向量数据库原理

魔镜前的帅比2025-12-10 21:34

day22 了解：向量数据库原理（相似度检索）

什么是向量数据库？

向量数据库（Vector Database）是一类专门用于存储高维向量（embeddings）并进行相似度搜索的数据库。它是现代 AI/RAG 系统（如文档问答、搜索增强生成）的核心组件。

🔸 为什么需要向量数据库？

因为传统数据库只擅长结构化数据（数字、文本等），无法处理：

句子"我喜欢苹果"和"I enjoy eating apples"

→ 虽然文字不同，但语义接近
用关键字搜索无法知道语义相似度

向量数据库通过将文本/图片/音频转为向量，可以进行语义搜索。

向量数据库的核心原理

向量数据库主要做三件事：

✔️ 1. 向量化（Embedding）（详细解释见day19）

将文本转换为一个高维向量，例如：

复制代码

"我喜欢苹果" → [0.12, -0.88, 0.55, ...]   # 768维向量

常见模型：

复制代码

OpenAI Embedding

BGE-base

sentence-transformers

Cohere embedding

向量的含义：每个维度表示语义的一种"特征"。

✔️ 2. 相似度度量（Similarity Metric）(day19)

常用方式：

复制代码

余弦相似度 Cosine similarity（最常见）

点积 Dot Product

欧氏距离 L2 Distance

向量越接近 → 内容越相似。

✔️ 3. 向量检索（ANN：Approximate Nearest Neighbor）

由于向量维度很高，普通遍历太慢，因此使用 ANN 加速。

常见的索引结构：

算法	描述	应用
HNSW	图结构，性能强	Milvus / Qdrant
IVF-FLAT	分桶+暴力计算	Faiss
PQ/OPQ	向量压缩	大规模场景

上一篇：在MySQL里创建数据库

下一篇：并发编程的三大基石：从底层逻辑聊透“同步、互斥与分工”

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？102026 年 AI 大模型 & AI 编程工具实战全总结