这么多向量数据库,它们之间到底有哪些差异?

上篇说到chroma的近邻搜索算法实现得有问题,不如qdrant的。其实向量数据库之间看似都一样,但细细比较还是有很多不同的。

国外有一系列文章已经讲得很详细了,而且也就是半年前写的,还是具有很强的参考价值,文章如下:

Vector databases (1): What makes each one different?

Vector databases (2): Understanding their internals

Vector databases (3): Not all indexes are created equal

Vector databases (4): Analyzing the trade-offs

里边有很多细节,不想细看的,我这里给几张图给大家快速了解不同向量数据库的差异。

存在时间

**

**

实现语言及是否开源

托管方法

索引方法

向量压缩的概念

向量一般是由浮点数组成,比如float32。一个float32 占4个字节,当向量维度很高且向量很多时,向量存储空间会比较大,查询起来也会比较慢。优化的一种方式是压缩向量,比如改成用一个byte的整数来表示原来的float32。这样每个维度就从4个字节变成一个字节,存储空间变小,查询也变快。当然,压缩会损失精度,可能会导致求向量相似度的时候有误差。向量压缩的过程叫量化(Quantization)

上图中的Flat 表示按向量的原始方式存储向量,没有压缩。压缩的方式有标量量化Scalar Quantization (SQ) 和 乘积量化 Product Quantization (PQ)。上边举的例子(float32 -> byte)就是标量量化。

更多细节,请见文章开头给的四篇文章,我就不一一赘述了。

Qdrant的向量压缩算法

qdrant有篇文章介绍它的向量压缩算法,详细可见:

qdrant.tech/documentati...

上边是qdrant的各种量化方式及对应的准确率,速度和压缩比。qdrant还支持了一种二进制量化压缩算法,速度可以提升到原来的40倍,存储效率是原来的32倍,只损失5%的准确率,但只建议用在测试过的向量模型。

qdrant的压缩查询优化

查询的时候如果不想用量化,可以直接设置参数 ignore 为true关闭量化向量的使用。如果配置了量化配置,默认使用量化向量进行查询。

为了提高量化后的向量查询的准确率,qdrant还支持rescore参数和oversampling参数。

rescore就是用量化后的向量查询出top k后,再用原始向量去对比,找出最相似的。比如我要top 3,你找出后再对比也还是在这3个向量之前再排序,看上去没有什么作用?加上oversampling 参数就可以很大用处了。

oversampling 就是预先取多多少向量,再通过取原始向量计算并排序,返回最终真正需要的。比如top 3, oversampling是10,那就会按量化后的向量找出30个最相似的,然后按原始向量计算相似度再排序,返回这时算出来的top 3向量。

​真正去实践才发现细节很多,下场把手弄脏是学习最快的。

相关推荐
Leon-Ning Liu3 分钟前
Oracle 19C 数据字典 DBA_HIST_SEG_STAT 详细说明
数据库·oracle·dba
⑩-15 分钟前
苍穹外卖Day(1)
java·数据库·spring boot·spring·java-ee·mybatis
朝新_35 分钟前
【统一功能处理】从入门到源码:拦截器学习指南(含适配器模式深度解读)
数据库·后端·mybatis·适配器模式·javaee
我要升天!1 小时前
QT-- 理解项目文件
开发语言·数据库·qt
冉冰学姐1 小时前
SSM基于WEB的教学质量评价系统的设计与实现p9ak6(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
数据库·ssm 框架·教学质量评价·多角色管理、
liliangcsdn1 小时前
sql中left join和inner join的区别
数据库·sql
l1t1 小时前
DeepSeek辅助编写转换DuckDB json格式执行计划到PostgreSQL格式的Python程序
数据库·python·postgresql·json·执行计划
TDengine (老段)2 小时前
TDengine 字符串函数 LIKE_IN_SET 用户手册
大数据·数据库·物联网·制造·时序数据库·tdengine·涛思数据
q***82912 小时前
【玩转全栈】----Django模板语法、请求与响应
数据库·python·django
q***31892 小时前
数据库操作与数据管理——Rust 与 SQLite 的集成
数据库·rust·sqlite