-
读取clickhouse数据库数据
scalaimport scala.collection.mutable.ArrayBuffer import java.util.Properties import org.apache.spark.sql.SaveMode import org.apache.spark.sql.SparkSession def getCKJdbcProperties( batchSize: String = "100000", socketTimeout: String = "300000", numPartitions: String = "50", rewriteBatchedStatements: String = "true"): Properties = { val properties = new Properties properties.put("driver", "ru.yandex.clickhouse.ClickHouseDriver") properties.put("user", "default") properties.put("password", "数据库密码") properties.put("batchsize", batchSize) properties.put("socket_timeout", socketTimeout) properties.put("numPartitions", numPartitions) properties.put("rewriteBatchedStatements", rewriteBatchedStatements) properties } // 读取click数据库数据 val today = "2023-06-05" val ckProperties = getCKJdbcProperties() val ckUrl = "jdbc:clickhouse://233.233.233.233:8123/ss" val ckTable = "ss.test" var ckDF = spark.read.jdbc(ckUrl, ckTable, ckProperties)
-
**show**
展示数据,类似于select * from test
的功能[ckDF.show](http://ckDF.show)
默认展示前20个记录ckDF.show(3)
指定展示记录数ckDF.show(false)
是否展示前20个ckDF.show(3, 0)
截取记录数
-
**ckDF.collect
** 方法会将ckDF
中的所有数据都获取到,并返回一个Array
对象 -
ckDF.collectAsList
功能和collect
类似,只不过将返回结构变成了List
对象 -
**ckDF.describe**("ip_src").show(3)
****获取指定字段的统计信息scalascala> ckDF.describe("ip_src").show(3) +-------+------+ |summary|ip_src| +-------+------+ | count|855035| | mean| null| | stddev| null| +-------+------+ only showing top 3 rows
-
first, head, take, takeAsList
获取若干行记录first
获取第一行记录head
获取第一行记录,head(n: Int)
获取前n行记录take(n: Int)
获取前n行数据takeAsList(n: Int)
获取前n行数据,并以List
的形式展现
以
Row
或者Array[Row]
的形式返回一行或多行数据。first
和head
功能相同。take
和takeAsList
方法会将获得到的数据返回到Driver端,所以,使用这两个方法时需要注意数据量,以免Driver发生OutOfMemoryError
【Hadoop】在spark读取clickhouse中数据
方大刚2332024-03-06 11:28
相关推荐
阿里云大数据AI技术11 小时前
从“开源开放”走向“高效智能”:阿里云 EMR 年度重磅发布随心............14 小时前
yarn面试题ZHOU_WUYI17 小时前
Apache Spark 集群部署与使用指南Aurora_eye18 小时前
记录之Ubuntu22.4虚拟机及hadoop为分布式安装随心............1 天前
在开发过程中遇到问题如何解决,以及两个经典问题yumgpkpm2 天前
CMP (类ClouderaCDP7.3(404次编译) )华为鲲鹏Aarch64(ARM)信创环境 查询2100w行 hive 查询策略大数据002 天前
CLICKHOUSE分布式表初体验言之。2 天前
ClickHouse 数据更新策略深度解析:突变操作与最佳实践K_i1343 天前
Hadoop 集群自动化运维实战Q26433650233 天前
【有源码】基于Python与Spark的火锅店数据可视化分析系统-基于机器学习的火锅店综合竞争力评估与可视化分析-基于用户画像聚类的火锅店市场细分与可视化研究