PGembedding 代码分析

pgembedding 存储结构

pg embedding 数据是存在共享内存中的,pg down 之后索引数据就没了,但索引对象本身还在,第一次访问时会重新创建。

数据以 plain 的形式存储,其中每个点是这样的结构:

idx_size: 表示这个点目前有多少 neighbour

idx_list: 表示排序好的邻近点的 index(点都存在数组里,因此可以用index访问)

point_vector: 是真正的点坐标,每个维度是一个 float,

label: 是点的标签

knn查找

首先从第0个点的idx_list开始找它的临近neighbour,最多遍历 efconstruction 个点(index 的 option),过程中会用visited 来做去重剪枝。

遍历过程会维护一个距离目标点的距离最小堆(candidateSet)和最大堆(topResults),当为目标点找到的邻居超过maxelements(index 的 option)时,就取出最大距离的点,如果比这个最大的小,则pop出这个最大点,将新邻居插入topResults中。

每有一个邻居成功插入idx_list就把它加入candidateSet,不断candidateSet找到更近的邻居,更新topResults。

点的插入

插入点过程与knn查找类似,先找邻近的n个点,更新自己的idx_list领居列表。

遍历每个邻居,看这个邻居是否idx_list満了,如果満了,则用最小堆做一个排序,更新这个邻居的idx_list。

索引创建

创建过程由于是共享内存里的操作,因而不支持并行 worker,就是普通的扫表创建。

cost 计算

没有什么特别的,就是当成普通的 index 来算

vacuum

没有实现 index tuple 的删除,可能因为是在内存里,没必要实现,只能 drop + create

相关推荐
XDHCOM15 分钟前
ORA-06521: PL/SQL映射函数错误,权威解析Oracle报错故障修复与远程处理方案
数据库·sql·oracle
wgzrmlrm741 小时前
mysql如何配置全文索引停用词_mysql ft_stopword_file设置
jvm·数据库·python
城数派1 小时前
2025年南京市全类别POI(55W+数据)
数据库·arcgis·信息可视化·数据分析·excel
疯狂成瘾者1 小时前
后端系统、服务稳定性里核心的指标有哪些
数据库
SPC的存折2 小时前
openEuler 24.03 MariaDB Galera 集群部署指南(cz)
linux·运维·服务器·数据库·mysql
仲芒2 小时前
[24年单独笔记] MySQL 常用的 DML 命令
数据库·笔记·mysql
SPC的存折2 小时前
MySQL 8.0 分库分表
linux·运维·服务器·数据库·mysql
蓦然乍醒2 小时前
使用 DBeaver 还原 PostgreSQL 备份文件 (.bak) 技术文档
数据库·postgresql
XDHCOM2 小时前
Redis节点故障自动恢复机制详解,如何快速抢救故障节点,确保数据不丢失?
java·数据库·redis
QCzblack2 小时前
BugKu BUUCTF ——Reverse
java·前端·数据库