GBASE南大通用分享:clickhouse-Merge Tree原理解析

GBASE南大通用分享

MergeTree表引擎参数:

partition by:分区键

order by:排序键

primary key:主键

sample by:抽样表达式(如果使用此配置,主键配置也需要声明同样的表达式)

settings index_granularity:索引力度,默认值是8192,表示每隔8192行数据才生成一条索引

settings:index_granularity_bytes:根据每一批次写入数据的体量大小,动态划分间隔大小,默认为10M,设置为0表示不启动自适应功能

settings:enable_mixed_granularity_parts:设置是否开启自适应索引间隔的功能

settings:merge_with_ttl_timeout:数据ETL功能

settings:storage_policy:多路径的存储策略

一级索引:

稀疏索引

索引粒度:8192,通过index_granularity这个参数来实现

二级索引:

allow_experimental_data_skipping_indices

granularity:数据的粒度

index_granularity:聚合信息汇总的粒度

跳数索引类型:

minmax:记录了一段数据内的最小和最大极致

set:记录了声明字段或表达式的取值(唯一值,无重复),其中max_rows是一个阈值,表示在一个index_granularity内索引最多记录的数据行数,如果为0,表示无限制

ngrambf_v1:记录的是数据短语的布隆表过滤器,只支持string和fixedstring数据类型,完整形式(n,size_of_bloom_filter_in_bytes,number_of_hash_functions,random_seed)

n:token长度,依据n的长度将数据切割为token短语

size_of_bloom_filter_in_bytes:布隆过滤器的大小

number_of_hash_functions:布隆过滤器中使用hash函数的个数

random_seed:hash函数的随机种子

tokenbf_v1:是ngrambf_v1的变种,除了短语token的处理方法外,其他的一样。

查询压缩数据的统计信息:

clickhouse-compressor --stat < .bin(数据文件)

数据块的大小由min_compress_block_size(默认65536)与max_compress_block_size(默认1048576)参数指定

相关推荐
云和恩墨36 分钟前
云计算、AI与国产化浪潮下DBA职业之路风云变幻,如何谋破局启新途?
数据库·人工智能·云计算·dba
明月看潮生1 小时前
青少年编程与数学 02-007 PostgreSQL数据库应用 11课题、视图的操作
数据库·青少年编程·postgresql·编程与数学
阿猿收手吧!1 小时前
【Redis】Redis入门以及什么是分布式系统{Redis引入+分布式系统介绍}
数据库·redis·缓存
奈葵1 小时前
Spring Boot/MVC
java·数据库·spring boot
leegong231111 小时前
Oracle、PostgreSQL该学哪一个?
数据库·postgresql·oracle
中东大鹅1 小时前
MongoDB基本操作
数据库·分布式·mongodb·hbase
夜光小兔纸2 小时前
Oracle 普通用户连接hang住处理方法
运维·数据库·oracle
兩尛3 小时前
订单状态定时处理、来单提醒和客户催单(day10)
java·前端·数据库
web2u4 小时前
MySQL 中如何进行 SQL 调优?
java·数据库·后端·sql·mysql·缓存
Elastic 中国社区官方博客4 小时前
使用 Elasticsearch 导航检索增强生成图表
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索