doris压缩方法_测试实践

压缩类型 特点 适用场景
无压缩 数据不进行压缩。 适用于不需要压缩的场景,例如数据已经被压缩或者存储空间不是问题的情况。
LZ4 压缩和解压速度非常快。压缩比适中。 适用于对解压速度要求高的场景,如实时查询或高并发负载。
LZ4F (LZ4 框架) LZ4 的扩展版本,支持更灵活的压缩配置。- 速度快,压缩比适中。 适用于需要快速压缩并对配置有细粒度控制的场景。
LZ4HC (LZ4 高压缩) 相比 LZ4 有更高的压缩比,但压缩速度较慢。- 解压速度与 LZ4 相当。 适用于需要更高压缩比的场景,同时仍然关注解压速度。
ZSTD (Zstandard) 高压缩比,支持灵活的压缩级别调整。- 即使在高压缩比下,解压速度仍然很快。 适用于对存储效率要求较高且需要平衡查询性能的场景。
Snappy 设计重点是快速解压。- 压缩比适中。 适用于对解压速度要求高且对 CPU 消耗低的场景。
Zlib 提供良好的压缩比与速度平衡。- 与其他算法相比,压缩和解压速度较慢,但压缩比更高。 适用于对存储效率要求较高且对解压速度不敏感的场景,如归档和冷数据存储。

选择合适的压缩算法需根据工作负载特性:

  • 对于 高性能实时分析 场景,推荐使用 LZ4 或 Snappy。
  • 对于 存储效率优先 的场景,推荐使用 ZSTD 或 Zlib。
  • 对于需要兼顾速度和压缩率的场景,可选择 LZ4F。
  • 对于 归档或冷数据存储 场景,建议使用 Zlib 或 LZ4HC。

doris 的各个压缩方式,压缩后大概大小:

这里的i表,是原始表,大约700w行

指定压缩方式:"compression" = "lz4" -- 对表单独指定压缩方法`

sql 复制代码
CREATE TABLE ods.erp_apps_mtl_item_categories_v_i (
    inventory_item_id            VARCHAR(45)     NOT NULL,
    organization_id              VARCHAR(45)     NOT NULL,
    category_id                  VARCHAR(45)     NOT NULL,
    row_id                       VARCHAR(20),
    category_set_id              VARCHAR(45),
    last_update_date             DATETIME,
    last_updated_by              VARCHAR(45),
    creation_date                DATETIME,
    created_by                   VARCHAR(45),
    last_update_login            VARCHAR(45),
    request_id                   VARCHAR(45),
    program_application_id       VARCHAR(45),
    program_id                   VARCHAR(45),
    program_update_date          DATETIME,
    category_set_name            VARCHAR(30),
    structure_id                 VARCHAR(45),
    validate_flag                VARCHAR(1),
    control_level                VARCHAR(45),
    control_level_disp           VARCHAR(80),
    category_concat_segs         VARCHAR(163),
    mult_item_cat_assign_flag    VARCHAR(1),
    category_structure_id        VARCHAR(45),
    category_disable_date        DATETIME,
    segment1                     VARCHAR(40),
    segment2                     VARCHAR(40),
    segment3                     VARCHAR(40),
    segment4                     VARCHAR(40),
    segment5                     VARCHAR(40),
    segment6                     VARCHAR(40),
    segment7                     VARCHAR(40),
    segment8                     VARCHAR(40),
    segment9                     VARCHAR(40),
    segment10                    VARCHAR(40),
    segment11                    VARCHAR(40),
    segment12                    VARCHAR(40),
    segment13                    VARCHAR(40),
    segment14                    VARCHAR(40),
    segment15                    VARCHAR(40),
    segment16                    VARCHAR(40),
    segment17                    VARCHAR(40),
    segment18                    VARCHAR(40),
    segment19                    VARCHAR(40),
    segment20                    VARCHAR(40),
    summary_flag                 VARCHAR(1),
    enabled_flag                 VARCHAR(1),
    hierarchy_enabled            VARCHAR(1),
    sys_update_time              DATETIME        NOT NULL DEFAULT CURRENT_TIMESTAMP,
)
UNIQUE KEY(inventory_item_id, organization_id, category_id)
COMMENT '物料项目类别表'
DISTRIBUTED BY HASH(inventory_item_id, organization_id, category_id) BUCKETS AUTO
PROPERTIES (
    "replication_num" = "2", -- 副本数,2个副本
    "estimate_partition_size" = "3g",  -- 自动分桶大小,按照3g大小划分
    "enable_unique_key_merge_on_write" = "true", -- unique表,写时合并
    "compression" = "lz4"  -- 对表单独指定压缩方法
);

显示当前doris库的所有表名,和表的创建时间

sql 复制代码
select concat(table_schema,'.',table_name),CREATE_TIME 
FROM information_schema.tables 
WHERE table_schema in  ('ods','dw','t25')
order by table_schema desc 
;

显示结果:

相关推荐
学掌门1 天前
数据分析师职业规划——数据分析师的职业焦虑与未来发展
大数据·信息可视化
亚马逊云开发者1 天前
EMR Core 节点部署 Flink Client 实战:Bootstrap Action 一次打包多次复用,解决调度系统提交任务的痛点
大数据·flink·bootstrap
盘古信息IMS1 天前
九宸纳百川,数智启新程|盘古信息与合肥昊邦科技合资成立合肥九宸智能,共筑智造新生态
大数据·人工智能
Irene19911 天前
大数据开发语境下,SQL 模式名,映射关系 - - 概念理解
大数据·数据库·sql
小熊美家熊猫系统1 天前
社区家政与平台家政:两种创业模式的深度对比分析
大数据·家政行业·社区家政·平台家政·家政管理软件
互联网志1 天前
打通转化通道 赋能产业发展——高校科技成果转化的现状与破局
大数据·人工智能·物联网
绿虫光伏运维1 天前
一文理清光伏运维的内容、常见问题与重要措施
大数据·运维·光伏业务
zandy10111 天前
HENGSHI SENSE 6.2 架构全景解析:Data Agent、指标引擎与Headless语义层的工程实现
大数据·人工智能·架构
我是发哥哈1 天前
主流AI框架生产环境性能对比:5大关键维度深度评测
大数据·人工智能·学习·机器学习·ai·chatgpt·ai-native
无忧智库1 天前
数据驱动精准农业:高标准农田地力与微环境多维异构数据集建设深度解析(WORD)
大数据