spark Mysql数据库配置

以下是 Spark 连接 MySQL 数据库的核心配置步骤(纯文本版):

  1. 准备 MySQL JDBC 驱动
  • 下载驱动:从 Maven 仓库 下载与 MySQL 服务端版本匹配的 mysql-connector-java-X.X.XX.jar (如 MySQL 8.0 对应 8.0.33 版本)。

  • 部署驱动:

  • 单机模式:将驱动包放入 Spark 的 jars 目录(路径: $SPARK_HOME/jars/ )。

  • 集群模式:提交任务时用 --jars 参数指定驱动路径,例如:

bash

spark-submit --jars /path/to/mysql-connector-java.jar your_app.jar

  1. 构建 SparkSession 并配置连接参数

以 Scala 为例,核心代码如下:

scala

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()

.appName("Spark MySQL Example")

.master("local[*]") // 或集群地址(如 yarn)

.getOrCreate()

// 连接参数(需替换为实际信息)

val jdbcUrl = "jdbc:mysql://host:port/database?useUnicode=true&characterEncoding=utf-8"

val table = "your_table"

val prop = new java.util.Properties()

prop.setProperty("user", "your_username")

prop.setProperty("password", "your_password")

prop.setProperty("driver", "com.mysql.cj.jdbc.Driver") // MySQL 8+ 驱动类名

  1. 读取 MySQL 数据

scala

// 读取表数据为 DataFrame

val df = spark.read.jdbc(jdbcUrl, table, prop)

df.show()

  1. 写入数据到 MySQL

scala

// 将 DataFrame 写入 MySQL 表(模式:overwrite/append/ignore/failIfExists)

df.write.jdbc(

url = jdbcUrl,

table = "target_table",

mode = "overwrite",

properties = prop

)

关键注意事项

  1. 驱动版本匹配:
  • MySQL 5.x 驱动类名为 com.mysql.jdbc.Driver ,8.x 及以上为 com.mysql.cj.jdbc.Driver 。

  • 若报 ClassNotFoundException ,检查驱动是否正确部署或版本是否匹配。

  1. 字符集配置:
  • 在 jdbcUrl 中添加 ?useUnicode=true&characterEncoding=utf-8 ,避免中文乱码。
  1. 集群环境权限:
  • 确保所有节点均能访问驱动包,或通过分布式文件系统(如 HDFS)分发驱动。

如需更详细示例(如 Python 版本或分区读取),可补充说明场景!

相关推荐
乌恩大侠5 小时前
AI-RAN 在 Spark上部署 Sionna-RK
大数据·分布式·spark
pale_moonlight1 天前
九、Spark基础环境实战((上)虚拟机安装Scala与windows端安装Scala)
大数据·分布式·spark
青云交3 天前
Java 大视界 -- Java 大数据在智能物流无人配送车路径规划与协同调度中的应用
java·spark·路径规划·大数据分析·智能物流·无人配送车·协同调度
yumgpkpm4 天前
腾讯云TBDS与CDH迁移常见问题有哪些?建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)
hive·hadoop·zookeeper·flink·spark·kafka·hbase
bigdata-rookie5 天前
Spark 部署模式
大数据·分布式·spark
sheji34165 天前
【开题答辩全过程】以 基于Spark的药品库存可视化分析系统为例,包含答辩的问题和答案
大数据·分布式·spark
larance5 天前
spark-submit 常用方式
大数据·spark
A尘埃5 天前
Spark基于内存计算的数据处理
大数据·分布式·spark
bigdata-rookie6 天前
Flink Checkpoint 和 Spark Checkpoint 的区别
大数据·flink·spark
灯下夜无眠6 天前
conda打包环境上传spark集群
大数据·spark·conda