Hive 创建事务表的方法

Hive 从 0.13 版本开始支持事务(ACID)功能,但完整的事务支持是在 Hive 3.0 及更高版本中实现的。以下是创建和使用 Hive 事务表的详细方法。

## 前提条件

在创建事务表之前,需要确保以下配置已设置:

-- 启用Hive事务支持

bash 复制代码
SET hive.support.concurrency=true;
SET hive.enforce.bucketing=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;

-- 对于Hive 3.0+还需要设置(默认已包含)

bash 复制代码
SET hive.compactor.initiator.on=true;
SET hive.compactor.worker.threads=1;

## 创建事务表的基本语法

sql 复制代码
CREATE [EXTERNAL] TABLE table_name (
  column1 data_type,
  column2 data_type,
  ...
)
[PARTITIONED BY (partition_column data_type, ...)]
CLUSTERED BY (bucket_column) INTO n BUCKETS
STORED AS ORC
TBLPROPERTIES (
  'transactional'='true',
  -- 可选属性
  'orc.compress'='SNAPPY',
  'bucket_count'='n'
);

## 完整示例

### 示例1:创建基本事务表

sql 复制代码
CREATE TABLE transactional_table (
  id INT,
  name STRING,
  value DOUBLE,
  update_time TIMESTAMP
)
CLUSTERED BY (id) INTO 4 BUCKETS
STORED AS ORC
TBLPROPERTIES (
  'transactional'='true',
  'orc.compress'='SNAPPY'
);

### 示例2:创建分区事务表

sql 复制代码
CREATE TABLE partitioned_transactional_table (
  id INT,
  name STRING,
  amount DECIMAL(10,2),
  trans_date TIMESTAMP
)
PARTITIONED BY (department STRING)
CLUSTERED BY (id) INTO 4 BUCKETS
STORED AS ORC
TBLPROPERTIES (
  'transactional'='true',
  'orc.compress'='ZLIB'
);

### 示例3:带有主键约束的事务表(Hive 3.0+)

sql 复制代码
CREATE TABLE acid_with_pk (
  id INT PRIMARY KEY,
  name STRING,
  salary DECIMAL(10,2)
)
CLUSTERED BY (id) INTO 2 BUCKETS
STORED AS ORC
TBLPROPERTIES (
  'transactional'='true',
  'transactional_properties'='default',
  'orc.compress'='SNAPPY'
);

## 事务表操作示例

### 插入数据

sql 复制代码
INSERT INTO TABLE transactional_table VALUES 
(1, 'Item A', 100.50, CURRENT_TIMESTAMP),
(2, 'Item B', 200.75, CURRENT_TIMESTAMP);

### 更新数据

sql 复制代码
UPDATE transactional_table 
SET value = 150.00 
WHERE id = 1;

### 删除数据

sql 复制代码
DELETE FROM transactional_table 
WHERE id = 2;

### 合并操作(MERGE)

sql 复制代码
MERGE INTO transactional_table AS target
USING updates_source AS source
ON target.id = source.id
WHEN MATCHED AND source.op = 'update' THEN
  UPDATE SET value = source.value, update_time = CURRENT_TIMESTAMP
WHEN MATCHED AND source.op = 'delete' THEN
  DELETE
WHEN NOT MATCHED THEN
  INSERT VALUES (source.id, source.name, source.value, CURRENT_TIMESTAMP);

## 重要注意事项

  1. 存储格式要求:事务表必须使用 ORC 存储格式

  2. 分桶要求:事务表必须分桶(CLUSTERED BY)

  3. 性能考虑:

  • 小文件合并(compaction)会影响性能

  • 适合频繁更新的场景,纯追加数据场景不需要事务表

  1. 版本兼容性:
  • Hive 3.0+ 提供完整的事务支持

  • 早期版本(0.14-2.x)功能有限

  1. 元数据管理:可以使用 `SHOW TRANSACTIONS` 查看当前事务

对于大多数数据仓库场景,如果主要是批量加载和查询操作,使用普通表而非事务表通常性能更好。

相关推荐
秦拿希4 小时前
【paimon-trino】trino整合paimon元数据访问s3
大数据·trino·paimon
kuankeTech4 小时前
解决内外贸双轨制难题,外贸ERP智能引擎同步管理国内外合规与标准
大数据·人工智能·数据可视化·软件开发·erp
q_35488851535 小时前
AI大模型:python新能源汽车推荐系统 协同过滤推荐算法 Echarts可视化 Django框架 大数据毕业设计(源码+文档)✅
大数据·人工智能·python·机器学习·信息可视化·汽车·推荐算法
一只专注api接口开发的技术猿10 小时前
微服务架构下集成淘宝商品 API 的实践与思考
java·大数据·开发语言·数据库·微服务·架构
AC赳赳老秦11 小时前
Dify工作流+DeepSeek:运维自动化闭环(数据采集→报告生成)
android·大数据·运维·数据库·人工智能·golang·deepseek
明洞日记11 小时前
【软考每日一练009】计算机系统性能评价:基准程序分类与 TPC 实战案例详解
大数据·数据库
李慕婉学姐11 小时前
【开题答辩过程】以《基于Spring Boot和大数据的医院挂号系统的设计与实现》为例,不知道这个选题怎么做的,不知道这个选题怎么开题答辩的可以进来看看
大数据·spring boot·后端
汽车仪器仪表相关领域11 小时前
全程高温伴热,NOx瞬态精准捕捉:MEXA-1170HCLD加热型NOx测定装置项目实战全解
大数据·服务器·网络·人工智能·功能测试·单元测试·可用性测试
橙露11 小时前
嵌入式实时操作系统 FreeRTOS:任务调度与信号量的核心应用
java·大数据·服务器