Hive表使用ORC格式和SNAPPY压缩建表语句示例

Hive表使用ORC格式和SNAPPY压缩建表语句示例

下面是一个sql示例:

c 复制代码
-- 创建数据库
CREATE DATABASE IF NOT EXISTS mydatabase;

-- 使用数据库
USE mydatabase;

-- 创建分区表,使用ORC文件格式,采用Snappy压缩算法
CREATE TABLE IF NOT EXISTS my_table (
id INT,
name STRING
)
PARTITIONED BY (dt STRING)
STORED AS ORC
LOCATION '/user/hive/warehouse/my_table'
TBLPROPERTIES ("orc.compress"="snappy");

-- 加载数据到分区表
INSERT INTO my_table PARTITION (dt=20240101) VALUES
(101, 'Alice'),
(102, 'Bob');

-- 查询分区表数据
SELECT * FROM my_table;

在这个示例中:

  • 首先创建了一个名为 mydatabase 的数据库并切换到该数据库。
  • 创建了一个名为 my_table 的分区表 ,包含了 id 和 name 两列。
  • 使用 PARTITIONED BY (dt STRING) 对表进行了日期分区,将数据按照日期进行分区存储。
  • 使用 STORED AS ORC 指定了使用ORC文件格式存储数据,ORC是Hive中常用的列式存储格式。
  • 使用 LOCATION 指定了表的存储路径。
  • 使用 TBLPROPERTIES ("orc.compress"="snappy") 设置了压缩算法为SNAPPY,对数据进行压缩存储。

Hive支持的常用文件格式

  • ORC(Optimized Row Columnar):列式存储格式,提供高压缩比和高性能的查询。

  • Parquet:另一种列式存储格式,支持高效的压缩和查询。

  • Text:文本文件格式,易于阅读和处理。

  • SequenceFile:Hadoop中的二进制文件格式,适合大数据存储和处理。
    Hive支持的常用压缩算法

  • SNAPPY:快速压缩算法,提供较高的压缩比和速度。

  • GZIP:通用的压缩算法,提供较高的压缩比,但速度相对较慢。

  • LZO:高效的压缩算法,支持快速压缩和解压缩,适合大数据处理。

  • BZIP2:提供更高的压缩比,但速度较慢,适合对存储空间要求较高的场景。


在选择压缩算法时,一般可以考虑以下几个因素

  1. 压缩比:不同的压缩算法具有不同的压缩比,一般来说,压缩比越高,存储空间占用越小,但可能会影响查询性能。
  2. 压缩速度:有些压缩算法压缩速度较快,适合对数据进行频繁压缩,而有些压缩算法压缩速度较慢,但压缩比较高。
  3. 解压速度:压缩算法解压速度也是一个重要考虑因素,因为查询时需要解压数据。
相关推荐
我科绝伦(Huanhuan Zhou)6 小时前
深入解析Oracle SQL调优健康检查工具(SQLHC):从原理到实战优化
数据库·sql·oracle
咸鱼求放生7 小时前
es在Linux安装
大数据·elasticsearch·搜索引擎
人大博士的交易之路9 小时前
今日行情明日机会——20250606
大数据·数学建模·数据挖掘·数据分析·涨停回马枪
神奇侠20249 小时前
Hive SQL常见操作
hive·hadoop·sql
一只叫煤球的猫10 小时前
MySQL 8.0 SQL优化黑科技,面试官都不一定知道!
后端·sql·mysql
多多*10 小时前
微服务网关SpringCloudGateway+SaToken鉴权
linux·开发语言·redis·python·sql·log4j·bootstrap
deriva11 小时前
某水表量每15分钟一报,然后某天示数清0了,重新报示值了 ,如何写sql 计算每日水量
数据库·sql
Leo.yuan12 小时前
数据库同步是什么意思?数据库架构有哪些?
大数据·数据库·oracle·数据分析·数据库架构
云之兕12 小时前
MyBatis 的动态 SQL
数据库·sql·mybatis
SelectDB技术团队13 小时前
从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效
大数据·数据仓库·clickhouse·kylin·实时分析