pyspark读取数据库性能优化

当数据量很大时,读取方式

dbtable写sql语句

dbtable和query配置不能同时存在,选一种即可。里面都可以直接写sql语句

python 复制代码
jdbcDF = spark.read.format("jdbc")\
    .option("driver",driver)\
    .option("url",url)\
    .option("dbtable","(select * from my_table where class='01' and sex='M' )")\
    .option("user",user)\
    .option("password",password)\
		.load().select("org_code","operate_id")

如果dbtable是一个表,如果load()后进行where和select,都会把整张表加载进来,耗内存。直接写sql语句比较好。

并行方式读取数据库

一般来说,默认读数据库,numPartition是1。

以下代码使得读取数据库并行读是10。

python 复制代码
jdbcDF = spark.read.format("jdbc")\
    .option("driver",driver)\
    .option("url",url)\
    .option("dbtable","(select * from my_table where class='01' and sex='F' )")\
    .option("user",user)\
    .option("password",password)\
		.option("numPartitions",10)\
		.option("partitionColumn","id")\
		.option("lowerBound",0)\
		.option("upperBound",100000)
		.load().select("org_code","operate_id")

numPartitions是设置的最大分区数。(单独设置这一选项,没有设置partitionColumn,lowerBound,upperBound,我怎么试实际运行numPartitions值都是1。大概是spark不知道怎么分割分区)

partitionColumn,lowerBound,upperBound这三个选项必须同时设置。(upperBound-lowerBound)/numPartitions是步长。即使数据内容低于lowerBound,或高于upperBound,依然会把所有数据都加载进来。

比如设置partitionColumn为id列,lowerBound为100,upperBound为400,numPartitions为3,实际内容有小于100的,也有大于300的。

那么第一个分区是低于200的,第二个分区是[200,300),第三个分区是大于等于300的

partitionColumn列的值必须是numeric, date, 或 timestamp类型的。

如果是date类型,可以写.option("lowerBound","2023-01-01")

如果是timestamp类型,可以写.option("lowerBound","2023-01-01 00:00:00")

相关推荐
weixin_5318042439 分钟前
SQL优化技巧(如查询优化、索引优化)。分布式系统的基本概念及挑战(如数据一致性、服务发现、负载均衡)
数据库·sql·服务发现
一 乐1 小时前
考研论坛平台|考研论坛小程序系统|基于java和微信小程序的考研论坛平台小程序设计与实现(源码+数据库+文档)
java·数据库·学习·考研·微信·小程序·源码
一 乐1 小时前
租拼车平台|小区租拼车管理|基于java的小区租拼车管理信息系统小程序设计与实现(源码+数据库+文档)
java·数据库·vue.js·微信·notepad++·拼车
BillDev2 小时前
Oracle创建用户报错-ORA-65096: invalid common user or role name
数据库·oracle
szial2 小时前
深入理解SQL模糊查询中的特殊字符处理——以DB2为例
数据库·sql
jxxchallenger2 小时前
踩坑spring cloud gateway /actuator/gateway/refresh不生效
java·数据库·gateway
肥or胖2 小时前
【MySQL】索引
linux·数据库·mysql
Kiwi233332 小时前
产品经理-需求分析
数据库·产品经理·需求分析
读心悦3 小时前
修改 MySQL 数据库中的唯一键
数据库·mysql
qq_213157893 小时前
(c#)unity中sqlite多线程同时开启事务会导致非常慢
数据库·sqlite·c#