Clickhouse初认识

技术主题-clickhouse

一什么是clickHouse

1)本质上就是一款数据库管理系统,能提供海量数据的存储和检索

2)基于列存储,数据是按照列进行存储的(数据格式一样,方便进行压缩)

3)具备功能(多核并发处理、分布式处理、兼容sql)兼容mysql的sql语法,有sql经验,便于快速上手熟悉

4)基于OLAP,和传统的事物数据库不同,倾向于大数据量的分析

二clickHouse的4个概念

1)granule: a logical breakdown of rows inside an uncompressed block;default is 8192 rows

逻辑的概念,默认是8192行,最小的不可分的数据集

2)primary key:the sort order of a table

表的主键,用来排序的一个键

3)primary index: an in-memory index containing the values of the primary keys of the first row of each granule

稀疏索引,加速查询

4)part: a folder of files consisting of the column files and index file of a subset of a table is data

就是一个目录,目录里面包含列文件和索引文件,批量插入一次创建一个part

三Inserting data into a table

1)创建数据表-primary key

2)每次批量插入创建一个part,官方建议最少1000行,举个例子

3)数据的存储,文件是基于主键的顺序,有索引文件,每个列是一个文件

4)mergetree合并part

5)mergetree合并part,默认最大的part由参数控制

6)primary indexs

5)每一个granule用单独的线程去处理,处理快的线程可以处理慢线程的任务

相关推荐
yashuk5 天前
clickhouse-介绍、安装、数据类型、sql
数据库·sql·clickhouse
百度Geek说7 天前
百度MEG数据中台ClickHouse在数据湖仓中的探索和应用
clickhouse·湖仓一体·lakehouse·数据引擎·存算分离
l1t7 天前
编译测试clickhouse-cpp客户端
c++·clickhouse
hopsky7 天前
ClickHouse SQL 在 Java 中的校验方法
java·sql·clickhouse
longxibo10 天前
【Ubuntu datasophon1.2.1 二开之八:验证实时数据入湖】
大数据·linux·clickhouse·ubuntu·linq
阿坤带你走近大数据20 天前
ClickHouse的介绍
clickhouse
南修子22 天前
【Flink 30天】Day24-27 实时数仓规范:ODS→DWD→DWS→ADS 分层 + Temporal Join + 生产最佳实践
clickhouse·flink·实时数仓·数据分层·temporaljoin
l1t1 个月前
DeepSeek总结的用Parquet从 ClickHouse 迁移至 CedarDB查询
clickhouse·cedardb
longxibo2 个月前
【Ubuntu datasophon1.2.1 二开之六:解决CLICKHOUSE安装问题】
大数据·linux·clickhouse·ubuntu