spark sql数据源

howard200518 天前
jdbc·spark sql数据源
4.6 Spark SQL数据源 - JDBC详细介绍了Spark SQL通过JDBC连接MySQL数据库的完整实战流程,从理论基础到实践操作全面覆盖。文档阐述了Spark SQL通过JDBC API读取关系型数据库的机制,强调了JDBC驱动依赖的重要性,并介绍了如何通过SparkSession的read接口创建DataFrame。在实践部分,从创建MySQL数据库环境开始,依次演示了创建student和score表、插入测试数据的完整步骤,重点对比了两种读取方式:使用dbtable参数直接读取表或带别名的子查询,以及使用query参数读取不带别名的
howard200519 天前
spark sql数据源·parquet文件
4.3 Spark SQL数据源 - Parquet文件本次实战深入讲解Spark SQL中Parquet文件的处理机制与Schema合并技术。Parquet作为列式存储格式,具备Schema自动保存和空值兼容性等优势。实战中通过read.parquet()和write.parquet()完成基本读写操作,重点掌握SaveMode配置解决目录冲突。核心内容是Schema合并功能,通过spark.read.option("mergeSchema", true)或spark.sql.parquet.mergeSchema配置启用,能自动整合不同结构但相容的Parq
howard200519 天前
json·spark sql数据源
4.4 Spark SQL数据源 - JSONSpark SQL JSON数据源实战涵盖:自动Schema推断读取JSON文件、spark.read.json()方法应用、文件格式规范(每行独立JSON)、HDFS文件操作及Spark Shell交互式查询。核心实践包括:从HDFS读取用户与成绩JSON文件创建DataFrame并关联分析;对比传统spark.read.json(RDD)(已弃用)与现代from_json()函数结合显式Schema的高效解析方式,实现类型安全的JSON数组到DataFrame转换,优化性能与数据处理可靠性。
howard200519 天前
spark sql数据源·hive表
4.5 Spark SQL数据源 - Hive表Spark SQL 与 Hive 集成实战展示了如何在 Spark 环境中操作 Hive 数据。首先需配置 hive-site.xml 文件,确保 Spark 能够访问 Hive 的元数据库,并启动 HDFS、Hive 元数据服务及 Spark 集群。接着,在 Spark Shell 中验证 Hive 支持是否生效。
howard200520 天前
数据写入模式·spark sql数据源
4.2.3 Spark SQL数据源 - 掌握数据写入模式本次实战重点讲解Spark SQL中mode()方法的数据写入策略控制。通过SaveMode枚举类可实现四种写入模式:ErrorIfExists(默认,存在则报错)、Append(追加数据)、Overwrite(完全覆盖)和Ignore(存在则忽略)。实战演示中,首先读取HDFS上的JSON数据生成DataFrame,然后通过不同模式写入同一输出目录验证效果:覆写模式会替换原有数据,追加模式增加新文件,忽略模式保持原状,错误模式则阻止重复写入。这种灵活的数据写入控制机制对于ETL流程设计和数据管理至关重要
howard200520 天前
spark sql数据源·分区自动推断
4.2.4 Spark SQL数据源 - 掌握分区自动推断分区自动推断是Spark SQL的重要特性,它能自动识别符合"分区列=值"规范的目录结构并将其转化为数据帧的分区字段。实战中需先按规范创建嵌套目录结构,如gender=female/country=cn/,并将JSON数据文件存入对应分区目录。启动Spark Shell后使用spark.read.format("json").load()读取根目录,Spark会自动推断出gender和country为分区列,无需手动指定schema。该功能支持数字、日期、时间戳、字符串等类型自动推断,也可通过配置spar
我是有底线的