Apache Iceberg 数据类型参考表

Apache Iceberg 概述-链接

Apache Iceberg 数据类型参考表

数据类型 描述 实例 方法 注意事项
BOOLEAN 布尔类型,表示真或假 true, false 用于条件判断,例如 WHERE is_active = true 确保逻辑条件的正确性。
INTEGER 32位有符号整数 42, -7 可用于计算、聚合,例如 SUM(salary) 超出范围会导致数据溢出。
LONG 64位有符号整数 9223372036854775807 适用于大数值,常用于时间戳处理。 注意时间单位(毫秒/秒)。
FLOAT 单精度浮点数 3.14f, -0.001f 用于科学计算或小数表示。 精度有限,可能导致四舍五入误差。
DOUBLE 双精度浮点数 3.141592653589793 常用于精确计算和复杂的数学运算。 也有精度问题,注意比较时的容忍度。
DECIMAL(P, S) 精确的小数,指定精度(P指定总位数,小于等于38)和小数位数(S指定小数位数) DECIMAL(10, 2) (例如 12345.67) 用于金融计算,支持高精度运算。 定义时需要谨慎选择精度和刻度。
STRING 可变长度字符串 "Hello, Iceberg!" 适用于存储文本数据,支持多种操作。 不适合存储大量数据,可能影响性能。
DATE 不包含时间和时区的日期 2023-09-23 用于日期计算,例如 WHERE order_date > '2023-01-01' 时区问题需注意,使用时确保一致性。
TIME 不包含日期和时区的时间 12:34:56 适用于记录时分秒,常用于日志数据。 需要注意时区和格式问题。
TIMESTAMP 日期和时间的组合,不含时区 2023-09-23 14:30:00 用于精确记录事件发生的时间。 注意时区和格式一致性。
TIMESTAMPTZ 含时区的时间戳 2023-09-23 14:30:00+00 适用于国际化应用,存储时间信息。 注意时区处理。
UUID 通用唯一标识符 550e8400-e29b-41d4-a716-446655440000 用于唯一标识数据行,避免重复。 生成 UUID 时应避免冲突。
ARRAY 有序的元素集合 ARRAY['apple', 'banana'] 可用于表示列表,支持多种类型。 数组长度不可过大,可能影响查询性能。
MAP 键值对集合 MAP['key1', 'value1'] 用于表示字典型数据,支持灵活的数据结构。 注意键的唯一性,避免重复键导致的数据错误。
STRUCT 复合数据类型,由多个字段组成 STRUCT<name STRING, age INT> 用于表示复杂对象,便于管理多种属性。 结构体中的字段名称不能重复。
FIXED(L) 长度为 L 的固定长度字节数组 BINARY 'abc' (L=3) 适合存储定长数据。 长度必须固定。
BINARY 任意长度的字节数组 BINARY 'abcdef' 可变长度,适合存储文件或其他二进制数据。 存储大数据时需考虑性能。
相关推荐
镜舟科技10 天前
大数据平台与数据仓库的核心差异是什么?
starrocks·数据仓库·数据湖·大数据平台·湖仓一体·物化视图·流式湖仓
chat2tomorrow19 天前
数据仓库 vs 数据湖:架构、应用场景与技术差异全解析
大数据·数据仓库·低代码·架构·数据湖·sql2api
宝哥大数据24 天前
数据中台、数据湖和数据仓库 区别
大数据·数据仓库·数据湖
dundunmm1 个月前
【每日一个知识点】分布式数据湖与实时计算
实时计算·数据湖·数据·大数据处理
SelectDB技术团队1 个月前
Apache Doris 2.1.9 版本正式发布
大数据·数据仓库·数据分析·doris·数据湖·湖仓一体·日志数据
镜舟科技1 个月前
Apache Iceberg 解析,一文了解Iceberg定义、应用及未来发展
starrocks·数据分析·apache·iceberg·数据湖·湖仓一体·元数据
小涵2 个月前
【分布式】冰山(Iceberg)与哈迪(Hudi)对比的基准测试
大数据·数据库·分布式·阿里云·架构·iceberg·hudi
徐一闪_BigData2 个月前
数仓开发那些事(10)
大数据·sql·flink·iceberg
涤生大数据2 个月前
Doris 湖仓一体:数据分析新范式
数据仓库·数据挖掘·数据分析·doris·数据湖·数字化转型·湖仓一体