Hive表使用ORC格式和SNAPPY压缩建表语句示例

Hive表使用ORC格式和SNAPPY压缩建表语句示例

下面是一个sql示例:

c 复制代码
-- 创建数据库
CREATE DATABASE IF NOT EXISTS mydatabase;

-- 使用数据库
USE mydatabase;

-- 创建分区表,使用ORC文件格式,采用Snappy压缩算法
CREATE TABLE IF NOT EXISTS my_table (
id INT,
name STRING
)
PARTITIONED BY (dt STRING)
STORED AS ORC
LOCATION '/user/hive/warehouse/my_table'
TBLPROPERTIES ("orc.compress"="snappy");

-- 加载数据到分区表
INSERT INTO my_table PARTITION (dt=20240101) VALUES
(101, 'Alice'),
(102, 'Bob');

-- 查询分区表数据
SELECT * FROM my_table;

在这个示例中:

  • 首先创建了一个名为 mydatabase 的数据库并切换到该数据库。
  • 创建了一个名为 my_table 的分区表 ,包含了 id 和 name 两列。
  • 使用 PARTITIONED BY (dt STRING) 对表进行了日期分区,将数据按照日期进行分区存储。
  • 使用 STORED AS ORC 指定了使用ORC文件格式存储数据,ORC是Hive中常用的列式存储格式。
  • 使用 LOCATION 指定了表的存储路径。
  • 使用 TBLPROPERTIES ("orc.compress"="snappy") 设置了压缩算法为SNAPPY,对数据进行压缩存储。

Hive支持的常用文件格式

  • ORC(Optimized Row Columnar):列式存储格式,提供高压缩比和高性能的查询。

  • Parquet:另一种列式存储格式,支持高效的压缩和查询。

  • Text:文本文件格式,易于阅读和处理。

  • SequenceFile:Hadoop中的二进制文件格式,适合大数据存储和处理。
    Hive支持的常用压缩算法

  • SNAPPY:快速压缩算法,提供较高的压缩比和速度。

  • GZIP:通用的压缩算法,提供较高的压缩比,但速度相对较慢。

  • LZO:高效的压缩算法,支持快速压缩和解压缩,适合大数据处理。

  • BZIP2:提供更高的压缩比,但速度较慢,适合对存储空间要求较高的场景。


在选择压缩算法时,一般可以考虑以下几个因素

  1. 压缩比:不同的压缩算法具有不同的压缩比,一般来说,压缩比越高,存储空间占用越小,但可能会影响查询性能。
  2. 压缩速度:有些压缩算法压缩速度较快,适合对数据进行频繁压缩,而有些压缩算法压缩速度较慢,但压缩比较高。
  3. 解压速度:压缩算法解压速度也是一个重要考虑因素,因为查询时需要解压数据。
相关推荐
云技纵横1 天前
唯一索引 INSERT 死锁实战:5 秒复现交叉插入的 S 锁循环等待
sql·mysql
得物技术2 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子2 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树883 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1233 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
果丁智能3 天前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
王小王-1233 天前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
ApacheSeaTunnel3 天前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步
大数据·mysql·开源·doris·数据集成·seatunnel·数据同步
weixin_397574093 天前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
极光代码工作室3 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化