Spark高级用法-数据源的读取与写入

目录

数据读取

数据写入

总结


数据读取

  • 读文件

    • read.json
    • read.csv

      • csv文件有两个部分构成 头部数据,也就是字段数据,行数数据
    • read.orc
  • 读数据库

    • read.jdbc(jdbc连接地址,table='表名',properties={'user'=用户名,'password'=密码,'driver'='驱动信息'})

缺少连接驱动的错误

拷贝连接驱动包

将MySQL驱动包放入/export/server/spark/jars/目录下

cp /export/server/hive/lib/mysql-connector-java-5.1.32.jar /export/server/spark/jars/

数据库创建测试数据

sql 复制代码
create database itcast charset=utf8;

create table itcast.tb_user(
    id int,
    name varchar(20),
    age int,
    gender varchar(20)
);

insert into  itcast.tb_user values (1,'张三',20,'男');

pyspark读取数据库数据

python 复制代码
from pyspark.sql import SparkSession
ss = SparkSession.builder.getOrCreate()

# 获取外部
df = ss.read.text("hdfs://node1:8020/data/students.txt")
df.show()

# 获取外部数据库数据 采用jdbc方式读取,只要是支持jdbc连接的的数据库都可读
# url参数1  jdbc的连接地址
# table 指定连接的表
# properties 属性参数,指定连接的账户密码及驱动信息
df2 = ss.read.jdbc(
    url='jdbc:mysql://192.168.88.100:3306/itcast',table='tb_user',
    properties={'user':'root','password':'123456','driver':'com.mysql.jdbc.Driver'}
)
df2.show()

数据写入

  • 因为数据是在df中存储,所以使用dataframe进行数据写入

    • 使用dtaframe的的write方法
  • 写入文件有个模式,覆盖和追加两种方式,用mode参数指定

    • 覆盖 overwrite
    • 追加 oppend
  • 写入文件

    • write.json
    • write.csv
    • write.orc
  • 写入数据库

    • write.jdbc(jdbc连接地址,table='表名',properties={'user'=用户名,'password'=密码,'driver'='驱动信息'},mode='写入方式')

数据库创建表

pyspark写入数据库数据

python 复制代码
# 数据写入
from pyspark.sql import SparkSession,Row
ss = SparkSession.builder.getOrCreate()

df = ss.createDataFrame([
    Row(id = 1,name = '张三',age = 20),
    Row(id = 2,name = '李松',age = 20),
    Row(id = 3,name = '荔枝',age = 20)
],
    schema = 'id int,name string,age int'
)

# 将df数据写入hdfs中
df.write.json('hdfs://node1:8020/data/data_json',mode='overwrite')

# 写入数据库
df.write.jdbc('jdbc:mysql://192.168.88.100:3306/itcast?characterEncoding=utf8',table='tb_stu',mode='overwrite',
              properties={'user':'root','password':'123456','driver':'com.mysql.jdbc.Driver'})

验证hdfs是否写入数据

验证数据库是否传入数据

总结

使用read和write实现数据导入导出

读取mysql数据库的原始数据表

df = ss.read.jdbc()

在将读取到的数据导入数仓中

df.write.orc(hdfs://node1:8020/ods/tb_user

相关推荐
庄小焱1 分钟前
大数据存储域——图数据库系统
大数据·知识图谱·图数据库·大数据存储域·金融反欺诈系统
jiayong233 分钟前
Elasticsearch Java 开发完全指南
java·大数据·elasticsearch
语落心生8 分钟前
流式数据湖Paimon探秘之旅 (七) 读取流程全解析
大数据
语落心生8 分钟前
流式数据湖Paimon探秘之旅 (二) 存储模型与文件组织
大数据
n***786810 分钟前
PostgreSQL 中进行数据导入和导出
大数据·数据库·postgresql
语落心生11 分钟前
流式数据湖Paimon探秘之旅 (四) FileStore存储引擎核心
大数据
语落心生15 分钟前
流式数据湖Paimon探秘之旅 (三) Catalog体系深度解析
大数据
语落心生15 分钟前
流式数据湖Paimon探秘之旅 (六) 提交流程与事务保证
大数据
梦里不知身是客1117 分钟前
容量调度器
大数据
跨境海外仓小秋33 分钟前
仓库如何实现自动汇总订单波次?TOPWMS波次规则助力海外仓拣货效率翻倍
大数据