【Hadoop】使用Metorikku框架读取hive数据统计分析写入mysql

一、定义作业文件

  • 作业文件

    • 该文件将包括输入源输出目标和要执行的配置文件的位置,具体内容如下

      bash 复制代码
      metrics:
        - /user/xrx/qdb.yaml   # 此位置为hdfs文件系统目录
      inputs:
      output:
        jdbc:
          connectionUrl: "jdbc:mysql://233.233.233.233:3306/sjjc"
          user: "root"
          password: "123456"
          driver: "com.mysql.jdbc.Driver"
      explain: true
      showQuery: true
  • 配置文件

    • 文件定义了 ETL 的步骤和查询,以及输出的位置和内容。

      bash 复制代码
      steps:
      - dataFrameName: df
        sql:
          select movieId,rating from hive.emp
      output:
      - dataFrameName: df
        outputType: JDBC
        outputOptions:
          saveMode: Append
          dbTable: emp

      该文件使用SQL查询从Hive表中读取数据,并使用JDBC将结果写入MySQL表/

二、上传作业文件和配置文件到hdfs系统

hdfs dfs -put qdb.yaml /user/xrx

三、执行指令

与mysql结合使用要定义数据库驱动,clickhouse及其它数据库使用要引入不同的数据库驱动,将多种数据驱动引擎放入lib文件中,一同加载。

shell 复制代码
#!/bin/bash
Path=/home/xrx
for jar in `ls $Path/lib/*jar`
do
        LIBJARS=$jar,$LIBJARS
done

spark-submit \
--master yarn \
--conf spark.sql.catalogImplementation=hive \
--driver-class-path $LIBJARS \
--jars $LIBJARS \
--class com.yotpo.metorikku.Metorikku metorikku_2.11.jar \
-c /user/xrx/qdb.yaml
相关推荐
我是一颗柠檬4 小时前
【MySQL全面教学】MySQL基础SQL语句Day3(2026年)
数据库·后端·sql·mysql·oracle
MandalaO_O4 小时前
MyBatis 与 MySQL 执行流程
数据库·mysql·mybatis
键盘上的猫头鹰6 小时前
【从零学MySQL(三)】数据增删改(DML)及 SELECT 查询详解
数据库·mysql·数据分析
Cry丶7 小时前
WebFlux + R2DBC 场景下的分库分表预研:从架构选型到落地风险
mysql·postgresql·数据库架构·shardingsphere·分库分表·webflux·r2dbc
键盘上的猫头鹰7 小时前
【从零学MySQL(二)】数据库基础操作、数据类型与约束(附Navicat演示)
数据库·mysql·数据分析·数据可视化
阮胜昌8 小时前
在CentOS 7.9上安装MySQL8.4.4 LTS
mysql·mysql8.4
码上谈兵10 小时前
一次 MySQL 连接池打满,我花一晚上重构了 Go 的数据库操作
mysql
夕除11 小时前
spring boot 13
java·mysql·spring
WAIT_TIME11 小时前
基于 Docker 快速构建 MySQL InnoDB Cluster 高可用集群与 Router 读写分离
mysql·docker·集群·innodb cluster