-
读取clickhouse数据库数据
scalaimport scala.collection.mutable.ArrayBuffer import java.util.Properties import org.apache.spark.sql.SaveMode import org.apache.spark.sql.SparkSession def getCKJdbcProperties( batchSize: String = "100000", socketTimeout: String = "300000", numPartitions: String = "50", rewriteBatchedStatements: String = "true"): Properties = { val properties = new Properties properties.put("driver", "ru.yandex.clickhouse.ClickHouseDriver") properties.put("user", "default") properties.put("password", "数据库密码") properties.put("batchsize", batchSize) properties.put("socket_timeout", socketTimeout) properties.put("numPartitions", numPartitions) properties.put("rewriteBatchedStatements", rewriteBatchedStatements) properties } // 读取click数据库数据 val today = "2023-06-05" val ckProperties = getCKJdbcProperties() val ckUrl = "jdbc:clickhouse://233.233.233.233:8123/ss" val ckTable = "ss.test" var ckDF = spark.read.jdbc(ckUrl, ckTable, ckProperties) -
**show**展示数据,类似于select * from test的功能[ckDF.show](http://ckDF.show)默认展示前20个记录ckDF.show(3)指定展示记录数ckDF.show(false)是否展示前20个ckDF.show(3, 0)截取记录数
-
**ckDF.collect** 方法会将ckDF中的所有数据都获取到,并返回一个Array对象 -
ckDF.collectAsList功能和collect类似,只不过将返回结构变成了List对象 -
**ckDF.describe**("ip_src").show(3)****获取指定字段的统计信息scalascala> ckDF.describe("ip_src").show(3) +-------+------+ |summary|ip_src| +-------+------+ | count|855035| | mean| null| | stddev| null| +-------+------+ only showing top 3 rows -
first, head, take, takeAsList获取若干行记录first获取第一行记录head获取第一行记录,head(n: Int)获取前n行记录take(n: Int)获取前n行数据takeAsList(n: Int)获取前n行数据,并以List的形式展现
以
Row或者Array[Row]的形式返回一行或多行数据。first和head功能相同。take和takeAsList方法会将获得到的数据返回到Driver端,所以,使用这两个方法时需要注意数据量,以免Driver发生OutOfMemoryError
【Hadoop】在spark读取clickhouse中数据
方大刚2332024-03-06 11:28
相关推荐
暴躁小师兄数据学院17 小时前
【AI大数据工程师特训笔记】第15讲:大数据环境安装王小王-1231 天前
基于 Hadoop + Flask 的电动汽车数据分析与可视化系统设计与实现木心术11 天前
在NVIDIA DGX Spark上部署NemoClaw的实际操作方案以及实际应用便利性。王小王-1231 天前
基于机器学习与Hadoop的心脏病数据分析与可视化设计与实现知识分享小能手1 天前
Hadoop学习教程,从入门到精通, Hadoop 3.x 高可用集群 — 知识点详解(6)KaMeidebaby2 天前
卡梅德生物技术快报|纳米抗体表达:分子生物学实操指南:噬菌体筛选与纳米抗体表达全流程技术拆解知识分享小能手2 天前
Hadoop学习教程,从入门到精通, ZooKeeper 分布式协调服务 — 全面知识点与案例代码(5)xhtdj2 天前
技术采用曲线回望二十年Nefu_lyh2 天前
【Hive】 八、Hive 计算引擎:MapReduce / Tez / Spark 对比与选型知识分享小能手3 天前
Hadoop学习教程,从入门到精通, MapReduce分布式计算框架 — 完整知识点与代码案例(4)