【抽取数据简单方式】spark实现hive中数据抽取到MySQL

目录

一、hdfs抽取到MySQL

二、hive的table表抽取到MySQL


抽取hive的数据到MySQL(将hive中的表导入到MySQL中)有两种方式:

  1. 直接从hdfs上抽取,因为hive的数据储存在hdfs上。
  2. 从hive的table表中直接抽取也可以!

一、hdfs抽取到MySQL

使用csv读数据hdfs的数据,jdbc取数据:

关键代码:

python 复制代码
# 获取sparkSession对象
    spark = SparkSession.builder.master("local[2]").appName("").config(
        "spark.sql.shuffle.partitions", 2).getOrCreate()

# 读取hive数据(本质是读取hdfs)
    df=spark.read.csv('hdfs://bigdata01:9820/user/hive/warehouse/yunhe01.db/t_user').toDF('id','name')
# 写入本地mysql中
df.write.format('jdbc') \
    .option("driver", "com.mysql.cj.jdbc.Driver") \
    .option("url", "jdbc:mysql://localhost:3306/zuoye") \
    .option("dbtable", "t_user") \
    .option("user", "root") \
    .option("password", "123456") \
    .save(mode='overwrite')

完整代码:

python 复制代码
import os

from pyspark.sql import SparkSession

"""
------------------------------------------
  Description : TODO:
  SourceFile : _14-hive读取到mysql
  Author  : song
  Date  : 2024/11/6
-------------------------------------------
"""
if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk1.8.0_201'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'D:/B/05-Hadoop/hadoop-3.3.1/hadoop-3.3.1'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'
    os.environ['HADOOP_USER_NAME'] = 'root'
    # 获取sparkSession对象
    spark = SparkSession.builder.master("local[2]").appName("").config(
        "spark.sql.shuffle.partitions", 2).getOrCreate()

    # 读取hive数据(本质是读取hdfs)
    df=spark.read.csv('hdfs://bigdata01:9820/user/hive/warehouse/yunhe01.db/t_user').toDF('id','name')
    # 写入本地mysql中
    df.write.format('jdbc') \
        .option("driver", "com.mysql.cj.jdbc.Driver") \
        .option("url", "jdbc:mysql://localhost:3306/zuoye") \
        .option("dbtable", "t_user") \
        .option("user", "root") \
        .option("password", "123456") \
        .save(mode='overwrite')
    
    spark.stop()

二、hive的table表抽取到MySQL

使用table(也就是hive数据库)读数据,jdbc取数据:

关键代码:

python 复制代码
# 获取sparkSession对象
    spark = SparkSession \
        .builder \
        .appName("Hive表导入到MySQL") \
        .master("local[2]") \
        .config("spark.sql.warehouse.dir", 'hdfs://bigdata01:9820/user/hive/warehouse') \
        .config('hive.metastore.uris', 'thrift://bigdata01:9083') \
        .config("spark.sql.shuffle.partitions", 2) \
        .enableHiveSupport() \
        .getOrCreate()
    # 读取hive表中数据
    df=spark.read.table("yunhe01.t_user")
    # 写入本地mysql中
    df.write.format('jdbc') \
        .option("driver", "com.mysql.cj.jdbc.Driver") \
        .option("url", "jdbc:mysql://localhost:3306/zuoye") \
        .option("dbtable", "t_user1") \
        .option("user", "root") \
        .option("password", "123456") \
        .save(mode='overwrite')

完整代码:

python 复制代码
import os

from pyspark.sql import SparkSession

"""
------------------------------------------
  Description : TODO:
  SourceFile : _14-hive读取到mysql
  Author  : song
  Date  : 2024/11/6
-------------------------------------------
"""
if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk1.8.0_201'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'D:/B/05-Hadoop/hadoop-3.3.1/hadoop-3.3.1'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'
    os.environ['HADOOP_USER_NAME'] = 'root'

    # 获取sparkSession对象
    spark = SparkSession \
        .builder \
        .appName("Hive表导入到MySQL") \
        .master("local[2]") \
        .config("spark.sql.warehouse.dir", 'hdfs://bigdata01:9820/user/hive/warehouse') \
        .config('hive.metastore.uris', 'thrift://bigdata01:9083') \
        .config("spark.sql.shuffle.partitions", 2) \
        .enableHiveSupport() \
        .getOrCreate()
    # 读取hive表中数据
    df=spark.read.table("yunhe01.t_user")
    # 写入本地mysql中
    df.write.format('jdbc') \
        .option("driver", "com.mysql.cj.jdbc.Driver") \
        .option("url", "jdbc:mysql://localhost:3306/zuoye") \
        .option("dbtable", "t_user1") \
        .option("user", "root") \
        .option("password", "123456") \
        .save(mode='overwrite')
    spark.stop()

总结:sqoop、datax、kettle都可以实现数据的导入导出,但发现使用spark是最简单的方式并且导入导出的速度也很快!

相关推荐
DolphinScheduler社区6 分钟前
实战演示 | 基于 Apache DolphinScheduler 与 Apache SeaTunnel 实现 MySQL 到 Doris 离线定时增量同步
数据库·mysql·开源·apache·海豚调度·大数据工作流调度
承渊政道11 分钟前
【MySQL数据库学习】MySQL基本查询(下)
数据库·学习·mysql·leetcode·bash·数据库开发·数据库系统
摇滚侠12 分钟前
Spring 零基础入门到进阶 基于注解的声明式事务 65-70
数据库·mysql·spring
这个人需要休息22 分钟前
优惠卷类型漏洞---优惠卷的并发使用
mysql·网络安全·逻辑漏洞·后端架构
小二·33 分钟前
MySQL 8.0 性能优化与索引原理
android·mysql·性能优化
AC赳赳老秦36 分钟前
OpenClaw + 华为云自动化:批量管理云资源、生成月度云账单分析与成本优化报告
java·开发语言·javascript·人工智能·python·mysql·openclaw
极光代码工作室36 分钟前
基于数据分析的电影票房预测系统
大数据·python·数据分析·spark·数据可视化
我是一颗柠檬42 分钟前
【Java项目技术亮点】读写分离+主从延迟处理:MySQL高并发下的性能优化方案
java·分布式·mysql·性能优化
霸道流氓气质1 小时前
MySQL 大数据量场景下的表结构与索引设计指南
数据库·mysql
lsyeei1 小时前
MySQL常用索引
数据库·mysql