pyspark 从postgresql读取数据

因为我安装的是spark 3.5.6,所以需要安装

bash 复制代码
pip install pyspark==3.5.6

Pyspark从postgresql读数据

python 复制代码
import time
from pyspark.sql import DataFrame, SparkSession,DataFrameReader
from pyspark.sql.functions import to_json, struct

spark: SparkSession.Builder = SparkSession.builder

session: SparkSession = spark.appName("Python Spark SQL data source example") \
        .config("spark.jars", r"C:\Users\84977\Downloads\postgresql-42.7.6.jar") \
        .master("spark://192.168.220.132:7077")\
        .getOrCreate()
        
last_max_id = 0  # 保存上次读取的最大ID

page_size= 2

while True:
    query = f"""
        (SELECT * FROM public.complexjson
         WHERE id > {last_max_id}
         ORDER BY id ASC
         LIMIT {page_size}) as t
    """

    df: DataFrame = session.read \
        .format("jdbc") \
        .option("url", "jdbc:postgresql://192.168.220.130:32222/postgresdb") \
        .option("dbtable", query) \
        .option("driver", "org.postgresql.Driver") \
        .option("user", "postgresadmin") \
        .option("password", "admin123") \
        .load()

    if df.count() > 0:
        df.show(truncate=False)

        json_df = df.select(to_json(struct("*")).alias("json"))
        for row in json_df.collect():
            print(row["json"])

        # 更新 last_max_id
        max_id = df.agg({"id": "max"}).collect()[0][0]
        last_max_id = max_id

    time.sleep(10)  # 每10秒轮询一次
相关推荐
李广坤6 小时前
MySQL 大表字段变更实践(改名 + 改类型 + 改长度)
数据库
爱可生开源社区1 天前
2026 年,优秀的 DBA 需要具备哪些素质?
数据库·人工智能·dba
随逸1771 天前
《从零搭建NestJS项目》
数据库·typescript
加号32 天前
windows系统下mysql多源数据库同步部署
数据库·windows·mysql
シ風箏2 天前
MySQL【部署 04】Docker部署 MySQL8.0.32 版本(网盘镜像及启动命令分享)
数据库·mysql·docker
李慕婉学姐2 天前
Springboot智慧社区系统设计与开发6n99s526(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
数据库·spring boot·后端
百锦再2 天前
Django实现接口token检测的实现方案
数据库·python·django·sqlite·flask·fastapi·pip
tryCbest2 天前
数据库SQL学习
数据库·sql
jnrjian2 天前
ORA-01017 查找机器名 用户名 以及library cache lock 参数含义
数据库·oracle
十月南城2 天前
数据湖技术对比——Iceberg、Hudi、Delta的表格格式与维护策略
大数据·数据库·数据仓库·hive·hadoop·spark