pyspark 从postgresql读取数据

因为我安装的是spark 3.5.6,所以需要安装

bash 复制代码
pip install pyspark==3.5.6

Pyspark从postgresql读数据

python 复制代码
import time
from pyspark.sql import DataFrame, SparkSession,DataFrameReader
from pyspark.sql.functions import to_json, struct

spark: SparkSession.Builder = SparkSession.builder

session: SparkSession = spark.appName("Python Spark SQL data source example") \
        .config("spark.jars", r"C:\Users\84977\Downloads\postgresql-42.7.6.jar") \
        .master("spark://192.168.220.132:7077")\
        .getOrCreate()
        
last_max_id = 0  # 保存上次读取的最大ID

page_size= 2

while True:
    query = f"""
        (SELECT * FROM public.complexjson
         WHERE id > {last_max_id}
         ORDER BY id ASC
         LIMIT {page_size}) as t
    """

    df: DataFrame = session.read \
        .format("jdbc") \
        .option("url", "jdbc:postgresql://192.168.220.130:32222/postgresdb") \
        .option("dbtable", query) \
        .option("driver", "org.postgresql.Driver") \
        .option("user", "postgresadmin") \
        .option("password", "admin123") \
        .load()

    if df.count() > 0:
        df.show(truncate=False)

        json_df = df.select(to_json(struct("*")).alias("json"))
        for row in json_df.collect():
            print(row["json"])

        # 更新 last_max_id
        max_id = df.agg({"id": "max"}).collect()[0][0]
        last_max_id = max_id

    time.sleep(10)  # 每10秒轮询一次
相关推荐
qq_283720051 分钟前
Python3 模块精讲:psycopg2(第三方)- 连接 PostgreSQL
数据库·postgresql
倚楼盼风雨2 分钟前
Redis 为什么快
数据库·redis·缓存
2501_901200532 分钟前
CSS如何让响应式字体在断点处平滑切换_使用clamp函数计算
jvm·数据库·python
xiaoliuliu123454 分钟前
redis-windows-7.2.3安装步骤详解(附Redis配置与Windows服务注册)
数据库·windows·redis
dFObBIMmai7 分钟前
如何应对高级SQL注入_配置数据库审计实时监控流量
jvm·数据库·python
Elastic 中国社区官方博客8 分钟前
通过受管控的控制平面加速商品陈列优化
大数据·数据库·人工智能·elasticsearch·搜索引擎·平面·ai
郝开10 分钟前
Spring Cloud Gateway 3.5.14 使用手册
java·数据库·spring boot·gateway
troyqu17 分钟前
Mysql(四)InnoDB怎么确保RR下的数据一致性
数据库·后端·mysql
2301_7662834433 分钟前
Golang怎么实现防重复提交_Golang如何用Token机制防止表单重复提交【技巧】
jvm·数据库·python
qq_4142565733 分钟前
CSS如何实现元素在容器内居中_利用margin-auto技巧
jvm·数据库·python