pyspark读取数据库性能优化

当数据量很大时,读取方式

dbtable写sql语句

dbtable和query配置不能同时存在,选一种即可。里面都可以直接写sql语句

python 复制代码
jdbcDF = spark.read.format("jdbc")\
    .option("driver",driver)\
    .option("url",url)\
    .option("dbtable","(select * from my_table where class='01' and sex='M' )")\
    .option("user",user)\
    .option("password",password)\
		.load().select("org_code","operate_id")

如果dbtable是一个表,如果load()后进行where和select,都会把整张表加载进来,耗内存。直接写sql语句比较好。

并行方式读取数据库

一般来说,默认读数据库,numPartition是1。

以下代码使得读取数据库并行读是10。

python 复制代码
jdbcDF = spark.read.format("jdbc")\
    .option("driver",driver)\
    .option("url",url)\
    .option("dbtable","(select * from my_table where class='01' and sex='F' )")\
    .option("user",user)\
    .option("password",password)\
		.option("numPartitions",10)\
		.option("partitionColumn","id")\
		.option("lowerBound",0)\
		.option("upperBound",100000)
		.load().select("org_code","operate_id")

numPartitions是设置的最大分区数。(单独设置这一选项,没有设置partitionColumn,lowerBound,upperBound,我怎么试实际运行numPartitions值都是1。大概是spark不知道怎么分割分区)

partitionColumn,lowerBound,upperBound这三个选项必须同时设置。(upperBound-lowerBound)/numPartitions是步长。即使数据内容低于lowerBound,或高于upperBound,依然会把所有数据都加载进来。

比如设置partitionColumn为id列,lowerBound为100,upperBound为400,numPartitions为3,实际内容有小于100的,也有大于300的。

那么第一个分区是低于200的,第二个分区是[200,300),第三个分区是大于等于300的

partitionColumn列的值必须是numeric, date, 或 timestamp类型的。

如果是date类型,可以写.option("lowerBound","2023-01-01")

如果是timestamp类型,可以写.option("lowerBound","2023-01-01 00:00:00")

相关推荐
四维迁跃3 分钟前
c++怎么在写入文件流时通过peek预读功能实现复杂的逻辑判断【实战】
jvm·数据库·python
小超同学你好9 分钟前
OpenClaw 深度解析与源代码导读 · 第7篇:Memory 子系统——持久化、内置记忆与「人格文件」分界
数据库
2301_775148159 分钟前
如何管理RAC归档日志_共享存储中的FRA配置与双节点访问
jvm·数据库·python
RoboWizard13 分钟前
移动固态硬盘的耐用性如何,怎么判断使用寿命?
服务器·数据库·负载均衡
qq_3300379918 分钟前
php怎么实现接口请求日志记录_php如何自动记录入参出参与耗时
jvm·数据库·python
2401_8653825019 分钟前
各省政务信息化项目验收材料清单汇总及差异分析
java·开发语言·数据库
pele25 分钟前
如何用 contextmenu 事件自定义鼠标右键菜单的显示逻辑
jvm·数据库·python
2301_7735536226 分钟前
怎样禁用phpMyAdmin的控制台历史记录_防凭证与查询留存
jvm·数据库·python
m0_7436239227 分钟前
Go语言怎么实现生产者消费者_Go语言生产者消费者模式教程【精通】
jvm·数据库·python
baidu_3409988229 分钟前
CSS Grid布局如何为特定项目指定位置_使用grid-row和grid-column
jvm·数据库·python