spark将数据输出到hive或mysql中

hive

复制代码
启动以下服务:
start-dfs.sh
start-yarn.sh
mapred --daemon start historyserver
/opt/installs/spark/sbin/start-history-server.sh
hive-server-manager.sh start metastore

import os

from pyspark.sql import SparkSession

"""
------------------------------------------
  Description : TODO:
  SourceFile : 02、spark
  Author  : null
  Date  : 2024/11/6
-------------------------------------------
"""

if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'E:/java-configuration/jdk-8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/applications/bigdata_config/hadoop-3.3.1/hadoop-3.3.1'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'C:/Users/35741/miniconda3/python.exe'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/Users/35741/miniconda3/python.exe'

    os.environ['HADOOP_USER_NAME'] = 'root'

    spark = SparkSession.builder \
        .master("local[2]") \
        .appName("第一个sparksql案例") \
        .config("spark.sql.warehouse.dir", 'hdfs://shucang:9820/user/hive/warehouse') \
        .config('hive.metastore.uris', 'thrift://shucang:9083') \
        .config("spark.sql.shuffle.partitions", 2) \
        .enableHiveSupport() \
        .getOrCreate()

    # 此时spark已经知道hive有什么数据库 ,该数据库中有什么表了,但是没有use
    spark.sql("select * from yhdb01.sql2_1").createOrReplaceTempView("sql2_1")
    hiveDf = spark.sql("select * from sql2_1")
    
    # 写入hive的数据库中
    # 需要有库吗 ------需要 需要有这个表吗 ------ 不需要 但是记得判空 hive中没有空类型
    hiveDf.write.saveAsTable("yhdb01.sql22_1",mode="overwrite")

    spark.stop()

mysql

复制代码
# 不需要事先将表创建好

import os

from pyspark.sql import SparkSession

"""
------------------------------------------
  Description : TODO:
  SourceFile : 02、spark
  Author  : null
  Date  : 2024/11/6
-------------------------------------------
"""

if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'E:/java-configuration/jdk-8'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'E:/applications/bigdata_config/hadoop-3.3.1/hadoop-3.3.1'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'C:/Users/35741/miniconda3/python.exe'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/Users/35741/miniconda3/python.exe'

    spark = SparkSession.builder \
        .master("local[2]") \
        .appName("第一个sparksql案例") \
        .config("spark.sql.shuffle.partitions", 2) \
        .getOrCreate()
    df = spark.read.json("../../data/sql/person.json")
    df.createOrReplaceTempView("person")
    
    # 获取一个dataFrame
    dfMysql = spark.sql("""
    select * from person
    """)
    
    # 第一种方式:format
    dfMysql.write.format("jdbc") \
    .option("driver", "com.mysql.cj.jdbc.Driver") \
    .option("url", "jdbc:mysql://localhost:3306/mydb01?characterEncoding=UTF-8") \
    .option("user", "root") \
    .option("password", "root") \
    .option("dbtable", "person") \
    .save(mode="overwrite")
    # append
    
    
    
    # 第二种方式:jdbc
    dictUsername = {"user": "root", "password": "root"}
    dfMysql.write.jdbc(url="jdbc:mysql://localhost:3306/mydb01?characterEncoding=UTF-8",table="person",properties=dictUsername,mode="append")


    spark.stop()
相关推荐
n***s9093 小时前
【MySQL基础篇】概述及SQL指令:DDL及DML
sql·mysql·oracle
爬山算法3 小时前
Redis(158)Redis的主从同步问题如何解决?
数据库·redis·缓存
ANYOLY5 小时前
分布式面试题库
分布式·面试·职场和发展
东哥说-MES|从入门到精通5 小时前
GenAI-生成式人工智能在工业制造中的应用
大数据·人工智能·智能制造·数字化·数字化转型·mes
程序员小远6 小时前
软件测试之单元测试详解
自动化测试·软件测试·python·测试工具·职场和发展·单元测试·测试用例
万岳软件开发小城6 小时前
教育APP/小程序开发标准版图:课程、题库、直播、学习一站式梳理
大数据·php·uniapp·在线教育系统源码·教育app开发·教育软件开发
2501_941148156 小时前
多语言微服务架构与边缘计算技术实践:Python、Java、C++、Go深度解析
数据库
心无旁骛~6 小时前
python多进程和多线程问题
开发语言·python
星云数灵6 小时前
使用Anaconda管理Python环境:安装与验证Pandas、NumPy、Matplotlib
开发语言·python·数据分析·pandas·教程·环境配置·anaconda
计算机毕设匠心工作室7 小时前
【python大数据毕设实战】青少年抑郁症风险数据分析可视化系统、Hadoop、计算机毕业设计、包括数据爬取、数据分析、数据可视化、机器学习
后端·python