查询hive指定数据库下所有表的建表语句并生成数据字典

功能:查询hive指定数据库下所有表的建表语句并生成数据字典

处理前:

| CREATE TABLE `test_db.customer`(                                    |
|   `c_name` string COMMENT '姓名',                                   |
|   `c_gender` string COMMENT '性别',                                 |
|   `c_type` string COMMENT '证件类型')                               |
| ROW FORMAT SERDE                                                    |
|   'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'     |
| WITH SERDEPROPERTIES (                                              |
|   'field.delim'='|',                                                |
|   'serialization.format'='|')                                       |
| STORED AS INPUTFORMAT                                               |
|   'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'   |
| OUTPUTFORMAT                                                        |
|   'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'  |
| LOCATION                                                            |
|   'hdfs://hacluster/user/hive/warehouse/test_db.db/customer'        |
| TBLPROPERTIES (                                                     |
|   'bucketing_version'='2',                                          |
|   'parquet.compression'='gzip',                                     |
|   'transient_lastDdlTime'='1735109698')                             |
| ;

处理后:生成数据字段如下

属主    表名    字段名  字段类型        字段注释        是否外表        是否分区字段
test_db customer        c_name  string  姓名    否      否
test_db customer        c_gender        string  性别    否      否
test_db customer        c_type  string  证件类型        否      否

处理步骤及代码逻辑如下:

  1. 查询hive指定数据库下所有表的建表语句

    cat hive_ddl.sh
    #!/bin/bash

    ********************************************

    file_name: hive_ddl.sh

    Func:查询hive指定数据库下所有表的建表语句

    Author: wx.yangpg

    create_date: 2025-02-01

    modify_info:

    version : V1.0

    execution:sh hive_ddl.sh

    ********************************************

    #加载环境
    source ~/.bash_profile

    #数据库名可通过传参的方式来执行
    dbname=$1
    #查询出该数据库下所有的表,并写入配置文件
    beeline --silent=true -e "show tables in ${dbname}" | grep '|' > show_tables.txt
    sed -i 's/|//g' show_tables.txt
    sed -i 's/ //g' show_tables.txt

    #保存hive的建表语句
    [ -e create_table.txt ] && rm create_table.txt

    #遍历配置文件,查询建表语句
    for table in awk 'NR>1' show_tables.txt
    do
    beeline --silent=true -e "show create table {dbname}.{table}" >> create_table.txt
    echo '| ;' >> create_table.txt
    done

    #初步处理建表语句
    cat create_table.txt | grep '|' | grep -v 'createtab_stmt' > create_table2.txt

  2. 执行shell命令,查看生成的建表语句

    #执行shell命令
    sh hive_ddl.sh test_db

    #查看生成的建表语句
    head create_table2.txt
    | CREATE TABLE test_db.customer( |
    | c_name string COMMENT '姓名', |
    | c_gender string COMMENT '性别', |
    | c_type string COMMENT '证件类型') |
    | ROW FORMAT SERDE |
    | 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' |
    | WITH SERDEPROPERTIES ( |
    | 'field.delim'='|', |
    | 'serialization.format'='|') |
    | STORED AS INPUTFORMAT |

  3. 使用java处理建表语句,代码逻辑如下

    package com.ods.sqoop.common;

    import java.io.*;

    public class DealHiveDDL {
    public static void main(String[] args) throws Exception {
    FileInputStream fileInputStream = new FileInputStream(args[0]);
    InputStreamReader inputStreamReader = new InputStreamReader(fileInputStream);
    BufferedReader bufferedReader = new BufferedReader(inputStreamReader);

         BufferedWriter bufferedWriter = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(args[1])));
         String line;
         String owner = "";
         String tablename = "";
         String column_name = "";
         String data_type = "";
         String comments = "";
         //是否外表标识
         String is_external = "否";
         //是否分区表标识
         String is_partition = "否";
         StringBuilder sb = new StringBuilder();
         while ((line = bufferedReader.readLine()) != null) {
             //获取数据库名,表名,是否外表标识
             if (line.startsWith("| CREATE")) {
                 if (line.indexOf("EXTERNAL") > 0) {
                     owner = line.split("\\s+")[4].split("\\.")[0];
                     tablename = line.split("\\s+")[4].split("\\.")[1];
                     is_external = "是";
                 } else {
                     owner = line.split("\\s+")[3].split("\\.")[0];
                     tablename = line.split("\\s+")[3].split("\\.")[1];
                 }
             } else if (line.startsWith("| PARTITIONED")) { //获取是否分区字段
                 is_partition = "是";
             } else if (line.startsWith("|   `")) { //获取字段名,字段类型,字段注释
                 column_name = line.split("\\s+")[1];
                 data_type = line.split("\\s+")[2];
                 if (line.indexOf("COMMENT") > 0) {
                     comments = line.split("\\s+")[4];
                 }
                 //owner tablename column_name data_type comments is_external is_partition
                 sb.append(owner).append("\t")
                         .append(tablename).append("\t")
                         .append(column_name).append("\t")
                         .append(data_type).append("\t")
                         .append(comments).append("\t")
                         .append(is_external).append("\t")
                         .append(is_partition).append("\t").append("\n");
             }
         }
         String replacement = sb.toString().replaceAll("`","")
                 .replaceAll("\\(","")
                 .replaceAll("\\)","")
                 .replaceAll("\\'","")
                 .replaceAll("\\,", "");
         String result = "属主\t表名\t字段名\t字段类型\t字段注释\t是否外表\t是否分区字段\n" + replacement;
         bufferedWriter.write(result);
         bufferedReader.close();
         bufferedWriter.close();
     }
    

    }

  4. 执行jar包生成最终需要的数据字典

    #执行jar包
    java -cp ods_etl.jar com.tpiods.sqoop.common.DealHiveDDL create_table2.txt result2.txt

    #查看最终生成的数据字典
    head result2.txt
    属主 表名 字段名 字段类型 字段注释 是否外表 是否分区字段
    test_db customer c_name string 姓名 否 否
    test_db customer c_gender string 性别 否 否
    test_db customer c_type string 证件类型 否 否

相关推荐
CT随14 分钟前
Redis 存在线程安全问题吗?为什么?
数据库·redis·安全
TravisBytes16 分钟前
Redis如何解决热Key问题
数据库·redis·缓存
宽带你的世界20 分钟前
TiDB 是一个分布式 NewSQL 数据库
数据库·分布式·tidb
隔壁老王15627 分钟前
tidb实时同步到mysql
数据库·mysql·tidb
2501_9032386533 分钟前
深入理解 JUnit 的 @RunWith 注解与自定义 Runner
数据库·junit·sqlserver·个人开发
小光学长44 分钟前
基于flask+vue框架的的医院预约挂号系统i1616(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
数据库
听封1 小时前
✨ 索引有哪些缺点以及具体有哪些索引类型
数据库·mysql
利瑞华1 小时前
数据库索引:缺点与类型全解析
数据库·oracle
V+zmm101341 小时前
自驾游拼团小程序的设计与实现(ssm论文源码调试讲解)
java·数据库·微信小程序·小程序·毕业设计
ChinaRainbowSea1 小时前
1. Linux下 MySQL 的详细安装与使用
linux·数据库·sql·mysql·adb