第2.6章 StarRocks表设计——数据压缩

注:本篇文章阐述的是StarRocks-3.2版本的数据压缩机制

1.数据压缩概述

StarRocks支持对表,索引数据进行压缩(compression)。数据压缩不仅有助于节省存储空间,还能提高I/O密集型任务的性能,但是压缩和解压数据需要额外的cpu资源。

2.选择数据压缩算法

StarRocks支持四种数据压缩算法:LZ4,Snappy,Zstandard(或 zstd)、zlib。每种压缩算法在压缩率和压缩/解压缩性能上有所不同。压缩率排名如下:zlib > Zstandard > LZ4 > Snappy 。由于数据高度压缩,使用zlib算法的表,其导入和查询性能会受到一定程度的影响。LZ4 和 Zstandard算法具有较为均衡的压缩比和解压缩性能。如果对存储空间占用没有特殊需求,建议使用LZ4 或Zstandard算法。除此之外,不同的数据类型也会影响算法的压缩率。

3.设置数据压缩算法

只能在建表时通过增加属性 compression 为其设置数据压缩算法且后续无法修改。如不指定数据压缩算法,StarRocks 默认使用 LZ4

compression 有效值包括:

  • LZ4:LZ4 算法。
  • ZSTD:Zstandard 算法。
  • ZLIB:zlib 算法。
  • SNAPPY:Snappy 算法。
sql 复制代码
#对表data_compression指定算法 Zstandard
create table `data_compression` (
  `id`      int(11)     not null     comment "",
  `name`    char(200)   null         comment ""
)
engine=olap 
unique key(`id`)
comment "olap"
distributed by hash(`id`)
properties (
"compression" = "zstd"
);

参考文章:

数据压缩 | StarRocks

相关推荐
翰林小院24 分钟前
【大数据专栏】流式处理框架-Apache Fink
大数据·flink
云动雨颤34 分钟前
Spring Boot配置优化:Tomcat+数据库+缓存+日志,全场景教程
数据库·spring boot·tomcat
RestCloud1 小时前
Kafka实时数据管道:ETL在流式处理中的应用
数据库·kafka·api
懒虫虫~1 小时前
通过内存去重替换SQL中distinct,优化SQL查询效率
java·sql·慢sql治理
孟意昶1 小时前
Spark专题-第一部分:Spark 核心概述(2)-Spark 应用核心组件剖析
大数据·spark·big data
逛逛GitHub1 小时前
1 个神级智能问数工具,刚开源就 1500 Star 了。
sql·github
寻星探路2 小时前
数据库造神计划第九天---增删改查(CRUD)(5)
数据库
IT学长编程2 小时前
计算机毕业设计 基于Hadoop的健康饮食推荐系统的设计与实现 Java 大数据毕业设计 Hadoop毕业设计选题【附源码+文档报告+安装调试】
java·大数据·hadoop·毕业设计·课程设计·推荐算法·毕业论文
AAA修煤气灶刘哥2 小时前
Kafka 入门不踩坑!从概念到搭环境,后端 er 看完就能用
大数据·后端·kafka