doris压缩方法_测试实践

压缩类型 特点 适用场景
无压缩 数据不进行压缩。 适用于不需要压缩的场景,例如数据已经被压缩或者存储空间不是问题的情况。
LZ4 压缩和解压速度非常快。压缩比适中。 适用于对解压速度要求高的场景,如实时查询或高并发负载。
LZ4F (LZ4 框架) LZ4 的扩展版本,支持更灵活的压缩配置。- 速度快,压缩比适中。 适用于需要快速压缩并对配置有细粒度控制的场景。
LZ4HC (LZ4 高压缩) 相比 LZ4 有更高的压缩比,但压缩速度较慢。- 解压速度与 LZ4 相当。 适用于需要更高压缩比的场景,同时仍然关注解压速度。
ZSTD (Zstandard) 高压缩比,支持灵活的压缩级别调整。- 即使在高压缩比下,解压速度仍然很快。 适用于对存储效率要求较高且需要平衡查询性能的场景。
Snappy 设计重点是快速解压。- 压缩比适中。 适用于对解压速度要求高且对 CPU 消耗低的场景。
Zlib 提供良好的压缩比与速度平衡。- 与其他算法相比,压缩和解压速度较慢,但压缩比更高。 适用于对存储效率要求较高且对解压速度不敏感的场景,如归档和冷数据存储。

选择合适的压缩算法需根据工作负载特性:

  • 对于 高性能实时分析 场景,推荐使用 LZ4 或 Snappy。
  • 对于 存储效率优先 的场景,推荐使用 ZSTD 或 Zlib。
  • 对于需要兼顾速度和压缩率的场景,可选择 LZ4F。
  • 对于 归档或冷数据存储 场景,建议使用 Zlib 或 LZ4HC。

doris 的各个压缩方式,压缩后大概大小:

这里的i表,是原始表,大约700w行

指定压缩方式:"compression" = "lz4" -- 对表单独指定压缩方法`

sql 复制代码
CREATE TABLE ods.erp_apps_mtl_item_categories_v_i (
    inventory_item_id            VARCHAR(45)     NOT NULL,
    organization_id              VARCHAR(45)     NOT NULL,
    category_id                  VARCHAR(45)     NOT NULL,
    row_id                       VARCHAR(20),
    category_set_id              VARCHAR(45),
    last_update_date             DATETIME,
    last_updated_by              VARCHAR(45),
    creation_date                DATETIME,
    created_by                   VARCHAR(45),
    last_update_login            VARCHAR(45),
    request_id                   VARCHAR(45),
    program_application_id       VARCHAR(45),
    program_id                   VARCHAR(45),
    program_update_date          DATETIME,
    category_set_name            VARCHAR(30),
    structure_id                 VARCHAR(45),
    validate_flag                VARCHAR(1),
    control_level                VARCHAR(45),
    control_level_disp           VARCHAR(80),
    category_concat_segs         VARCHAR(163),
    mult_item_cat_assign_flag    VARCHAR(1),
    category_structure_id        VARCHAR(45),
    category_disable_date        DATETIME,
    segment1                     VARCHAR(40),
    segment2                     VARCHAR(40),
    segment3                     VARCHAR(40),
    segment4                     VARCHAR(40),
    segment5                     VARCHAR(40),
    segment6                     VARCHAR(40),
    segment7                     VARCHAR(40),
    segment8                     VARCHAR(40),
    segment9                     VARCHAR(40),
    segment10                    VARCHAR(40),
    segment11                    VARCHAR(40),
    segment12                    VARCHAR(40),
    segment13                    VARCHAR(40),
    segment14                    VARCHAR(40),
    segment15                    VARCHAR(40),
    segment16                    VARCHAR(40),
    segment17                    VARCHAR(40),
    segment18                    VARCHAR(40),
    segment19                    VARCHAR(40),
    segment20                    VARCHAR(40),
    summary_flag                 VARCHAR(1),
    enabled_flag                 VARCHAR(1),
    hierarchy_enabled            VARCHAR(1),
    sys_update_time              DATETIME        NOT NULL DEFAULT CURRENT_TIMESTAMP,
)
UNIQUE KEY(inventory_item_id, organization_id, category_id)
COMMENT '物料项目类别表'
DISTRIBUTED BY HASH(inventory_item_id, organization_id, category_id) BUCKETS AUTO
PROPERTIES (
    "replication_num" = "2", -- 副本数,2个副本
    "estimate_partition_size" = "3g",  -- 自动分桶大小,按照3g大小划分
    "enable_unique_key_merge_on_write" = "true", -- unique表,写时合并
    "compression" = "lz4"  -- 对表单独指定压缩方法
);

显示当前doris库的所有表名,和表的创建时间

sql 复制代码
select concat(table_schema,'.',table_name),CREATE_TIME 
FROM information_schema.tables 
WHERE table_schema in  ('ods','dw','t25')
order by table_schema desc 
;

显示结果:

相关推荐
浪子小院5 分钟前
ModelEngine 智能体全流程开发实战:从 0 到 1 搭建多协作办公助手
大数据·人工智能
AEIC学术交流中心1 小时前
【快速EI检索 | ACM出版】2026年大数据与智能制造国际学术会议(BDIM 2026)
大数据·制造
wending-Y1 小时前
记录一次排查Flink一直重启的问题
大数据·flink
UI设计兰亭妙微1 小时前
医疗大数据平台电子病例界面设计
大数据·界面设计
初恋叫萱萱1 小时前
模型瘦身实战:用 `cann-model-compression-toolkit` 实现高效 INT8 量化
大数据
互联网科技看点2 小时前
孕期科学补铁,保障母婴健康-仁合益康蛋白琥珀酸铁口服溶液成为产妇优选方案
大数据
Dxy12393102162 小时前
深度解析 Elasticsearch:从倒排索引到 DSL 查询的实战突围
大数据·elasticsearch·搜索引擎
YongCheng_Liang2 小时前
零基础学大数据:大数据基础与前置技术夯实
大数据·big data
AC赳赳老秦2 小时前
2026国产算力新周期:DeepSeek实战适配英伟达H200,引领大模型训练效率跃升
大数据·前端·人工智能·算法·tidb·memcache·deepseek
鹏说大数据3 小时前
Spark 和 Hive 的关系与区别
大数据·hive·spark