【hive】远程remote debug hive的方法,用于hive监听器/钩子编写

背景

写hive监听器时候需要拿到hive对象但hive是在集群linux主机上运行的。通过jdbc提交的sql具体执行过程不会再idea中运行。所以如果需要拿到hive对象有可能存在两个思路:

(1)想办法写个钩子或者监听器,将需要的内容写成json字符串,在复制出来,在IDE中反序列化,然后回放。这个过程有个缺陷,如org.apache.hadoop.hive.ql.QueryPlan虽然继承了java.io.Serializable但是实际使用中需要内部各个成员变量都支持序列化,java没法做到编译检查。所以不可行。

(2)使用remote debug功能,可能社区版Community的IDEA没有此功能。

使用方法

先help看下:

hiveserver2启动方法:

bash 复制代码
# 默认开启本地8000端口号,日志里边有显示
$HIVE_HOME/bin/hive --debug --service hiveserver2 &

此时需要在IDE(这里以IDEA举例说明)连接此端口,hiveserver2才会继续运行,否则将一直阻塞(docker里测试不生效不知道为啥)

如果集群有多个hiveserver2,选择一个hiveserver2即可。idea连接指定好host即可。

IDEA连接了远程端口后,远端的hiveserver2就会继续运行了。

以下以钩子为例:org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext

在hive中执行大多数操作都会触发此断点。

如:show tables; use database ...; insert into table ...;

当然断点也可以打到hive自己的类上。

相关推荐
2501_9333295511 小时前
技术深度剖析:Infoseek 字节探索舆情处置系统的全链路架构与核心实现
大数据·数据仓库·人工智能·自然语言处理·架构
虚幻如影15 小时前
Hive 中“STRING类型无需显式指定长度
数据仓库·hive·hadoop
荒川之神1 天前
Oracle 数据仓库雪花模型设计(完整实战方案)
数据库·数据仓库·oracle
RestCloud1 天前
2026年企业级ETL工具选型指南:从开源DataX到商业化ETLCloud的演进
数据仓库·开源·etl·datax·数据处理·数据集成·数据传输
荒川之神1 天前
Oracle 数据仓库星座模型(Galaxy Model)设计原则
数据库·数据仓库·oracle
瀚高PG实验室1 天前
ETL中,分区表子表未及时收集统计信息,导致sql执行耗时很长
数据库·数据仓库·sql·etl·瀚高数据库
荒川之神1 天前
Oracle 数据仓库雪花模型设计原则(核心 + 落地 + Oracle 数据库适配)
数据库·数据仓库·oracle
荒川之神1 天前
Oracle 数据仓库星型模型设计原则
数据库·数据仓库·oracle
AllData公司负责人3 天前
AllData数据中台通过集成开源项目Apache IOTDB Web相关项目,建设物联网数据库平台
数据仓库·物联网·时序数据库·iotdb·工业物联网·apache iotdb·物联网数据库平台
Leo.yuan3 天前
数据仓库是什么?数据仓库和BI有什么区别?
数据仓库