向量数据库原理

day22 了解: 向量数据库原理(相似度检索)

什么是向量数据库?

向量数据库(Vector Database)是一类专门用于存储高维向量(embeddings)并进行相似度搜索的数据库。它是现代 AI/RAG 系统(如文档问答、搜索增强生成)的核心组件。

🔸 为什么需要向量数据库?

因为传统数据库只擅长结构化数据(数字、文本等),无法处理:

  • 句子"我喜欢苹果"和"I enjoy eating apples"

    → 虽然文字不同,但语义接近

  • 用关键字搜索无法知道语义相似度

向量数据库通过将文本/图片/音频转为向量,可以进行 语义搜索。


向量数据库的核心原理

向量数据库主要做三件事:

✔️ 1. 向量化(Embedding)(详细解释见day19)

将文本转换为一个高维向量,例如:

复制代码
"我喜欢苹果" → [0.12, -0.88, 0.55, ...]   # 768维向量

常见模型:

复制代码
OpenAI Embedding

BGE-base

sentence-transformers

Cohere embedding

向量的含义:每个维度表示语义的一种"特征"。


✔️ 2. 相似度度量(Similarity Metric)(day19)

常用方式:

复制代码
余弦相似度 Cosine similarity(最常见)

点积 Dot Product

欧氏距离 L2 Distance

向量越接近 → 内容越相似。


✔️ 3. 向量检索(ANN:Approximate Nearest Neighbor)

由于向量维度很高,普通遍历太慢,因此使用 ANN 加速。

常见的索引结构:

算法 描述 应用
HNSW 图结构,性能强 Milvus / Qdrant
IVF-FLAT 分桶+暴力计算 Faiss
PQ/OPQ 向量压缩 大规模场景
相关推荐
l1t21 小时前
DeepSeek总结的SQL 数独:约束编程
数据库·sql
生信碱移21 小时前
神经网络单细胞预后分析:这个方法直接把 TCGA 预后模型那一套迁移到单细胞与空转数据上了!竟然还能做模拟敲除与预后靶点筛选?!
人工智能·深度学习·神经网络·算法·机器学习·数据挖掘·数据分析
菩提祖师_21 小时前
基于单片机指纹密码门禁的设计与实现
数据库·单片机·嵌入式硬件
线束线缆组件品替网21 小时前
高可靠线缆工程实战:ElectronAix 德国工业线缆全解析
网络·人工智能·汽车·电脑·硬件工程·材料工程
rcc862821 小时前
开源RAG知识库平台深度解析
人工智能·开源
福客AI智能客服21 小时前
AI智能客服系统:增值服务行业的售后核心解决方案
大数据·人工智能
thubier(段新建)21 小时前
2025技术实践复盘:在沉淀中打磨,在融合中锚定AI协同新方向
大数据·人工智能
龙萱坤诺21 小时前
Sora-2 API 技术文档:创建角色接口
人工智能·aigc·ai视频·sora-2
在风中的意志21 小时前
[数据库SQL] [leetcode-175] 175. 组合两个表
数据库·sql·leetcode
ftpeak21 小时前
Burn:纯 Rust 小 AI 引擎的嵌入式物体识别之旅(一步不踩坑)
开发语言·人工智能·rust