技术栈

spark sql数据源

howard2005
2 小时前
数据写入模式·spark sql数据源
4.2.3 Spark SQL数据源 - 掌握数据写入模式本次实战重点讲解Spark SQL中mode()方法的数据写入策略控制。通过SaveMode枚举类可实现四种写入模式:ErrorIfExists(默认,存在则报错)、Append(追加数据)、Overwrite(完全覆盖)和Ignore(存在则忽略)。实战演示中,首先读取HDFS上的JSON数据生成DataFrame,然后通过不同模式写入同一输出目录验证效果:覆写模式会替换原有数据,追加模式增加新文件,忽略模式保持原状,错误模式则阻止重复写入。这种灵活的数据写入控制机制对于ETL流程设计和数据管理至关重要
howard2005
4 小时前
spark sql数据源·分区自动推断
4.2.4 Spark SQL数据源 - 掌握分区自动推断分区自动推断是Spark SQL的重要特性,它能自动识别符合"分区列=值"规范的目录结构并将其转化为数据帧的分区字段。实战中需先按规范创建嵌套目录结构,如gender=female/country=cn/,并将JSON数据文件存入对应分区目录。启动Spark Shell后使用spark.read.format("json").load()读取根目录,Spark会自动推断出gender和country为分区列,无需手动指定schema。该功能支持数字、日期、时间戳、字符串等类型自动推断,也可通过配置spar
我是有底线的