spark中write算子和format算子详解

在spark中,想要往数据库或者某sink路径里面写数据,存到外部存储系统,如文件系统、数据库或数据仓库,经常会用到write算子。

具体来说,write算子通常与DataFrameDataset API一起使用,用于将数据写入持久化存储。

以下是一些常见的write算子的用途和示例:

1. 写入文件系统(例如,HDFS、S3等):

Scala 复制代码
// 将DataFrame写入Parquet格式的文件
dataframe.write.parquet("/path/to/destination/folder")

2. 写入关系型数据库

Scala 复制代码
// 将DataFrame写入关系型数据库(例如,MySQL)
dataframe.write
  .format("jdbc")
  .option("url", "jdbc:mysql://hostname:port/database")
  .option("dbtable", "table_name")
  .option("user", "username")
  .option("password", "password")
  .save()

3. 写入列式数据库

Scala 复制代码
// 将DataFrame写入列式数据库(例如,Cassandra)
dataframe.write
  .format("org.apache.spark.sql.cassandra")
  .option("keyspace", "keyspace_name")
  .option("table", "table_name")
  .mode("append")
  .save()

4. 写入其他数据格式

Scala 复制代码
// 将DataFrame写入JSON格式的文件
dataframe.write.json("/path/to/destination/folder")

// 将DataFrame写入CSV格式的文件
dataframe.write.csv("/path/to/destination/folder")

这只是一小部分 write算子的示例。实际上,write算子支持多种格式和配置选项,以满足不同存储系统和需求的要求。具体的用法取决于你要写入的目标存储系统和数据格式。


那么wirte后面的format算子,这里面的参数一般有哪些常用的呢?

1. Parquet格式

Scala 复制代码
dataframe.write.format("parquet").save("/path/to/destination/folder")

2. JSON格式

Scala 复制代码
dataframe.write.format("json").save("/path/to/destination/folder")

3. CSV格式

Scala 复制代码
dataframe.write.format("csv").save("/path/to/destination/folder")

4. 关系型数据库(JDBC)

Scala 复制代码
dataframe.write.format("jdbc")
  .option("url", "jdbc:mysql://hostname:port/database")
  .option("dbtable", "table_name")
  .option("user", "username")
  .option("password", "password")
  .save()

5. 列式数据库(Cassandra)

Scala 复制代码
dataframe.write.format("org.apache.spark.sql.cassandra")
  .option("keyspace", "keyspace_name")
  .option("table", "table_name")
  .mode("append")
  .save()

6. Elasticsearch

Scala 复制代码
dataframe.write.format("org.elasticsearch.spark.sql")
  .option("es.nodes", "elasticsearch_host")
  .option("es.port", "9200")
  .option("es.resource", "index_name/document_type")
  .mode("append")
  .save()

每个存储系统或数据格式都有自己的一组特定选项,用于配置连接信息、目标路径、写入模式等。这些选项可以通过option方法进行设置,具体的选项取决于所使用的format。查阅相关文档可以帮助了解特定存储系统或数据格式所支持的选项。

相关推荐
xhtdj几秒前
Uber 如何通过批处理实现单账户每秒30+次更新
大数据·数据库·人工智能·安全·动态规划
functionflux17 分钟前
kafka-python:Python 生态中最成熟的 Kafka 客户端
分布式·python·其他·kafka
湘美书院--湘美谈教育20 分钟前
湘美谈教育AI赋能系列经验集锦:学好唐诗宋词的点滴心得体会
大数据·人工智能·深度学习·神经网络·机器学习
暴躁小师兄数据学院1 小时前
【AI大数据工程师特训笔记】第15讲:大数据环境安装
大数据·hadoop·flink·spark
挨踢诗人1 小时前
领星ERP集成金蝶云星空
大数据·信息可视化
andafaAPS1 小时前
安达发|汽车零部件行业aps生产排程:人工排产之困到智能调度之变
大数据·人工智能·汽车·aps生产排程·计划排产软件·自动排单软件
Promise微笑1 小时前
精准微阻测量:微欧计的分类、场景应用与高效选型决策指南
大数据·运维·网络·人工智能
QiLinkOS2 小时前
QiLink开源生态的三维重构:基于时间、空间与社会价值的底层规则创新白皮书
大数据·c++·人工智能·科技·算法·gitee·开源
qq_436962182 小时前
从“技术稀缺”到“人人可用”:奥威BI+AI如何复刻工业革命级变革
大数据·人工智能
运维小欣2 小时前
2026年AI 可观测平台选型指南
大数据·人工智能