南大通用GBase 8a gn层物理存储结构介绍

原文链接:www.gbase.cn/community/p...

更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。

列存储

GBase 8a MPP并行数据库集群是一款采用列存储的关系型数据库,GNode是GCluster最基本的存储和运算单元。

在进行数据存储时,记录是以列为单位进行映射和存储。即每个表的记录以列的方式进行拆分并分别存储为一组数据文件,每个数据文件最大为2GB,根据表中记录数的多少,每个列的数据文件会表现为一个或多个。

数据包及智能索引

就每个列的数据文件来讲,每个数据文件是由若干数据包(DataCell)构成,每个数据包中包含64K行记录,GNode对数据的存取操作均是以数据包为单位进行,即基本io单位为一个数据包。

在每个数据包之上会由数据库系统自动创建和维护智能索引(SmartIndex),智能索引记录的是该包中数据的统计信息,包括最大值、最小值、和值、NULL值个数。

在进行查询过滤和统计计算过程中,GNode会借助数据包的智能索引特性提升处理性能。智能索引具有如下特点:

  • 空间占用仅为数据的百分之一左右。
  • 基于数据包的索引,而不是基于行。
  • 所有字段上自动建立索引,保证即席查询、R-OLAP的性能,对复杂查询的优化效果明显。
  • 索引信息决定于数据包,数据包本身没有变化,则对应的索引就不需要维护。索引的自动维护成本不会随着表中数据量的增加而变大,保证了大数据量下的加载性能。

存储特性

由于数据文件是以列为单位进行存储的,因此每列文件数据类型统一,规律性更强,压缩率相对会更高,且压缩解压代价会更小。

对于列存储数据库, 由于I/O模型是基于单列建立的,因此对于过滤、join以及物化等操作可根据各个阶段需要基于所需列进行io。以下面的例子进行说明:

select custname, sum(credit) as totalcredit from customeraccount where custcity='BEIJING' group by custname ;

在数据库解析产生执行树的时候, 这条语句大致分解成filter -> {matched row position} -> projection -> aggregation -> results

a) filter = 上面select 语句中where custcity='BEIJING' 部分, 这部分过滤出来符合条件的行 (用行号 rowid记录).

b) projection -> aggregation = 上面语句中 select custname, sum(credit) 部分, 这部分是这条语句需要的结果。

对于行存数据库, 由于其行存特征, 每次必须把一整行数据读入内存, 才可以实现过滤(filtre), 投影操作(projection =选择部分字段),因此行存储无法在I/O上分开上面的 a) 和 b) 步骤。

GNode在上面的操作中,可先读取 a (filter) 部分需要的数据,进行where 操作 或其他join 操作。在获得符合条件的行号后,再进行步骤b 的 投影操作(物化)。

该方式的优点在于:在该示例中,行存需要读取所有列的数据,而GNode仅需读取三个列,且是根据处理阶段的需要,按需读取,因此需要的I/O比行存要小得多,内存使用效率也大大提高。

原文链接:www.gbase.cn/community/p...

更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。

相关推荐
一个天蝎座 白勺 程序猿2 小时前
Apache IoTDB(10):数据库操作——从查询到优化的全链路实践指南
数据库·apache·时序数据库·iotdb
普普通通的南瓜3 小时前
IP证书在关键信息基础设施安全防护中的实践与挑战
网络·数据库·网络协议·tcp/ip·安全·ssl
合作小小程序员小小店3 小时前
桌面开发,超市管理系统开发,基于C#,winform,sql server数据库
开发语言·数据库·sql·microsoft·sqlserver·c#
quweiie3 小时前
thinkphp8.0链接SQL SERVER2022数据库
数据库·sqlserver·thinkphp
Databend4 小时前
如何打造AI时代的数据基石 | Databend Meetup 上海站
数据库
老华带你飞4 小时前
海产品销售系统|海鲜商城购物|基于SprinBoot+vue的海鲜商城系统(源码+数据库+文档)
java·前端·数据库·vue.js·论文·毕设·海鲜商城购物系统
合作小小程序员小小店4 小时前
桌面开发,在线%超市销售管理%系统,基于vs2022,c#,winform,sql server数据
开发语言·数据库·microsoft·c#
SelectDB5 小时前
字节跳动:Apache Doris + AI 一站式融合数据引擎的探索与实践
数据库·apache
IvorySQL5 小时前
PostgreSQL 18 - 时间约束 (Temporal Constraints)
数据库·postgresql·开源
q***61415 小时前
从MySQL迁移到PostgreSQL的完整指南
数据库·mysql·postgresql