浙江省大数据Hudi配置

Hudi部署

完成解压安装及配置后使用maven对hudi进行构建(spark3.1,scala-2.12),使用spark-shell操作hudi(启动时若需要hudi-spark3.1-bundle_2.12-0.12.0.jar,该包已放置在/opt/software下,若不需要请忽略),将spark-shell启动命令复制并粘贴至对应报告中;使用spark-shell运行下面给到的案例,并将最终查询结果截图粘贴至对应报告中。

Scala 复制代码
 import org.apache.hudi.QuickstartUtils._
 import scala.collection.JavaConversions._
 import org.apache.spark.sql.SaveMode.
 import org.apache.hudi.DataSourceReadOptions._
 import org.apache.hudi.DataSourceWriteOptions._
 import org.apache.hudi.config.HoodieWriteConfig._
 import org.apache.hudi.common.model.HoodieRecord
 ​
 val tableName = "hudi_trips_cow"
 val basePath = "file:///tmp/hudi_trips_cow"
 val dataGen = new DataGenerator
 ​
 val inserts = convertToStringList(dataGen.generateInserts(10))
 val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2))
 df.write.format("hudi").
   options(getQuickstartWriteConfigs).
   option(PRECOMBINE_FIELD_OPT_KEY, "ts").
   option(RECORDKEY_FIELD_OPT_KEY, "uuid").
   option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
   option(TABLE_NAME, tableName).
   mode(Overwrite).
   save(basePath)
 ​
 val tripsSnapshotDF = spark.read.format("hudi").load(basePath + "/*/*/*/*")
 tripsSnapshotDF.createOrReplaceTempView("hudi_trips_snapshot")
 spark.sql("select fare, begin_lon, begin_lat, ts from  hudi_trips_snapshot where fare > 20.0").show()

操作步骤:

1 将编译完成与spark集成的jar包,集成后使用spark-shell操作hudi,启动spark-shell。

bash 复制代码
 spark-shell \
   --jars /opt/software/hudi-spark3.1-bundle_2.12-0.12.0.jar \
   --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
   --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

2 在spark-shell使用:paste编译多条语句按下ctrl+D执行多行语句

复制代码
 :paste
Scala 复制代码
 // 导入依赖包
 import org.apache.hudi.QuickstartUtils._
 import scala.collection.JavaConversions._
 import org.apache.spark.sql.SaveMode._
 import org.apache.hudi.DataSourceReadOptions._
 import org.apache.hudi.DataSourceWriteOptions._
 import org.apache.hudi.config.HoodieWriteConfig._
 import org.apache.hudi.common.model.HoodieRecord
 ​
 // 定义Hudi映射到的文件目录,以及存储表的名称
 val tableName = "hudi_trips_cow"
 val basePath = "file:///tmp/hudi_trips_cow"
 ​
 // 创建数据生成器实例
 val dataGen = new DataGenerator
 ​
 // 使用Hudi的数据生成器生成10条JSON数据
 val inserts = convertToStringList(dataGen.generateInserts(10))
复制代码
 ctrl+D           //执行多行语句

3 将10条JSON数据加载到DataFrame中,并写入hudi,实现一个简单的ETL处理

复制代码
 :paste
Scala 复制代码
 // 读取json数据到DataFrame中
 val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2))
 ​
 // 将DataFrame写入数据湖
 df.write.format("hudi").
   options(getQuickstartWriteConfigs).
   option(PRECOMBINE_FIELD_OPT_KEY, "ts").
   option(RECORDKEY_FIELD_OPT_KEY, "uuid").
   option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
   option(TABLE_NAME, tableName).
   mode(Overwrite).
   save(basePath)
复制代码
 ctrl+D           //执行多行语句

4 将10条JSON数据加载到DataFrame中,并写入hudi,实现一个简单的ETL处理

复制代码
 :paste
Scala 复制代码
 // 从数据湖中读取数据到DataFrame中
 val tripsSnapshotDF = spark.read.format("hudi").load(basePath + "/*/*/*/*")
 ​
 // 注册临时表
 tripsSnapshotDF.createOrReplaceTempView("hudi_trips_snapshot")
 ​
 // 执行SQL查询,并显示
 spark.sql("select fare, begin_lon, begin_lat, ts from  hudi_trips_snapshot where fare > 20.0").show()
复制代码
 ctrl+D           //执行多行语句
相关推荐
IT毕设梦工厂17 分钟前
大数据毕业设计选题推荐-基于大数据的客户购物订单数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
java水泥工19 分钟前
基于Echarts+HTML5可视化数据大屏展示-白茶大数据溯源平台V2
大数据·echarts·html5
广州腾科助你拿下华为认证2 小时前
华为考试:HCIE数通考试难度分析
大数据·华为
在未来等你4 小时前
Elasticsearch面试精讲 Day 17:查询性能调优实践
大数据·分布式·elasticsearch·搜索引擎·面试
大数据CLUB7 小时前
基于spark的澳洲光伏发电站选址预测
大数据·hadoop·分布式·数据分析·spark·数据开发
ratbag6720138 小时前
当环保遇上大数据:生态环境大数据技术专业的课程侧重哪些领域?
大数据
计算机编程小央姐9 小时前
跟上大数据时代步伐:食物营养数据可视化分析系统技术前沿解析
大数据·hadoop·信息可视化·spark·django·课程设计·食物
智数研析社10 小时前
9120 部 TMDb 高分电影数据集 | 7 列全维度指标 (评分 / 热度 / 剧情)+API 权威源 | 电影趋势分析 / 推荐系统 / NLP 建模用
大数据·人工智能·python·深度学习·数据分析·数据集·数据清洗
潘达斯奈基~10 小时前
《大数据之路1》笔记2:数据模型
大数据·笔记
寻星探路11 小时前
数据库造神计划第六天---增删改查(CRUD)(2)
java·大数据·数据库