spark dataFrame数据写出

SparkSQL统一API写出DataFrame数据

统一API语法:

df.write.mode().format().option(K,V).save(PATH)

  • mode,传入模式字符串可选:append追加,overwrite覆盖,ignore忽略,error重复就报异常(默认的)
  • format,传入格式字符串,可选:text,csv,json,parquet,orc,avro,jdbd
  • 注意text源只支持单列df写出,也就是数据写出来只有一列
  • option设置属性,如:.option("sep", ","),像保存csv时就可以指定它的分隔符
  • save写出的路径,支持本地文件和HDFS
python 复制代码
coding:utf8
import ...
if __name__ == '_main__':
    #O.构建执行环境入口对象SparkSession
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        config("spark.sql.shuffle.partitions", 2).\
        getorcCreate()
    sc = spark.sparkContext
    #1.读取数据集
    schema = StructType().add("user_id",StringType(),nullable=True).\
        add("movie_id",IntegerType(),nullable=True).
        add("rank",IntegerType(),nullable=True).
        add("ts",StringType),nullable=True)
    df = spark.read.format("csv").\
        option("sep","\t").\
        option("header",False).\
        option("encoding","utf-8").\
        schema(schema=schema).\
        Load("../data/input/sql/u.data")
    #Write text写出,只能写出一个列的数据,需要将df转换为单列df
    #这里用F对象里的concat_ws函数,指定---分隔,连接指定的字段
    df.select(F.concat_ws("---","user_id","movid_id","rank","ts")).\
        write.\
        mode("overwrite").\
        format("text").\
        save("../data/output/sql/text")
    # Write csv
    df.write.mode("overwrite").\
        format("csv").\
        option("sep", ";").
        option("header", True).\
        save("../data/output/sql/csv")
    # Write json
    df.write.mode("overwrite").\
        format("json").\
        save("../data/output/sql/json")
    # Write parquet
    df.write.mode("overwrite").\
        format("parqeut").\
        save("../data/output/sql/parquet")
相关推荐
Elastic 中国社区官方博客9 分钟前
在 Discover 中探索来自新的时间序列数据流的指标
大数据·数据库·目标检测·elasticsearch·搜索引擎·数据分析·全文检索
2601_956139421 小时前
快消品品牌全案公司哪家强
大数据·人工智能·python
源码之家1 小时前
Python股票数据分析与预测系统 大数据项目
大数据·python·机器学习·数据挖掘·数据分析·股票·可视化
小江的记录本2 小时前
【微服务与云原生架构】DevOps、CI/CD流水线、GitOps 系统性知识体系
分布式·后端·ci/cd·微服务·云原生·架构·devops
精益数智工坊2 小时前
红牌作战是什么?红牌作战的实施步骤与核心要点
大数据·运维·前端·人工智能·精益工程
数据法师2 小时前
大数据的“存储”:你的数据,到底住在哪儿?
大数据
豆豆2 小时前
高校网站用什么CMS?站群管理+国产化适配方案
java·大数据·cms·建站系统·信创国产化·高校网站·站群cms
智慧化智能化数字化方案3 小时前
数字化转型:解读IBM—大型酒业集团数字化转型项目实施方案建议书【附全文阅读】
大数据·人工智能·集团数字化转型·酒业集团数字化·食品公司数字化·快消品数字化
冯RI375II694873 小时前
UL4200A认证流程简化版:快速掌握核心步骤
大数据
2603_954708313 小时前
微电网混合控制架构:主从与对等控制的优势融合
分布式·安全·架构·能源·需求分析