向量数据库

一、核心痛点

  1. 简单暴力检索(遍历全量向量算相似度)仅适用于小数据量;
  2. 百万级高维向量下,MySQL普通字段存储+内存遍历,延迟极高、并发不可用
  3. 传统关系型数据库无原生向量索引,无法支撑海量语义检索。

二、核心核心概念

  1. ANN(近似最近邻搜索)
    放弃100%精确匹配,以极小召回率损耗,换取百倍检索性能提升,是向量检索的核心底层思想。
  2. 向量数据库本质
    专用存储 + ANN向量索引 + 标量过滤能力,专为高维向量相似度检索设计。

三、两大主流ANN索引原理

1. IVF 倒排索引

  • 核心:K-Means聚类分区,先匹配聚类中心,仅在少量目标簇内检索;
  • 优势:内存占用低、适合超大存量数据;
  • 劣势:聚类边界易丢失数据,召回率略低。

2. HNSW 分层小世界图(生产首选)

  • 核心:多层图结构,顶层粗定位、底层精检索,依靠节点跳转快速逼近目标向量;
  • 优势:检索速度最快、召回率高、RAG场景通用;
  • 劣势:内存开销大,需维护图连接关系。

四、主流索引选型规则

  1. 数据<10万:FLAT暴力检索,简单无成本;
  2. 10万~500万:内存充足选HNSW,内存有限选IVF_FLAT;
  3. 千万级以上:IVF_SQ8向量压缩 / DISKANN磁盘索引。

五、向量数据库选型对比

  1. 专用库:Milvus、Qdrant、Chroma,向量检索能力强,适配大规模RAG;
  2. 传统库扩展:pgvector、MySQL向量,低代码低成本,适合小体量项目;
  3. 本项目选型 Milvus:开源免费、Java生态完善、索引丰富、易部署,适配后端RAG开发。

六、Milvus 核心概念(对标MySQL)

  • Collection = 数据表
  • Schema = 表结构
  • Entity = 数据行
  • Index = 向量索引/标量索引
  • Partition = 数据分区
    核心区别:独有高维向量字段与专属ANN索引。

七、完整落地流程

Docker部署Milvus → 定义数据表结构 → 文档向量化 → 批量插入数据 → 创建HNSW向量索引+标量索引 → 加载集合 → 向量检索 → 元数据混合过滤检索。

八、工程关键决策点

  1. 相似度算法:文本RAG统一使用余弦余弦COSINE,通用性最强;
  2. 数据更新:向量库不支持原地修改,采用「删旧插新」方案;
  3. 核心参数:HNSW的M、efConstruction、ef 三者平衡性能与召回率;
  4. 混合检索:向量语义匹配+标量条件过滤,大幅提升检索精准度。
相关推荐
逸Y 仙X3 小时前
文章十六:ElasticSearch 使用enrich策略实现大宽表
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
Sherry Wangs3 小时前
MySQL 与向量数据库的核心区别:从结构化数据到语义搜索
数据库·mysql
@小柯555m4 小时前
MySql(高级操作符--高级操作符练习(2))
数据库·sql·mysql
凯尔萨厮4 小时前
Springboot2.x+JSP项目创建
java·数据库
Mr_linjw4 小时前
MySQL 中监控和优化慢 SQL & 索引小知识
数据库·sql·mysql
mftang4 小时前
BSS段、Data段、Text段的具体含义和数据特性
数据库·算法
码农阿豪4 小时前
Python 操作金仓数据库的完全指南(上篇):连接管理与高可用
开发语言·数据库·python
雾岛听风6914 小时前
Sql server
数据库·sql·sqlserver
X56614 小时前
SQL注入防御技术方案_基于正则表达式的输入清洗
jvm·数据库·python