Spark_Oracle_I_通过jdbc读取oracle程序报错invalid character

问题背景:

我原先是通过我么api直接读取的oracle,现在由于要并行读取这个oracle数据库表数据,因此采用jdbc的方式,一开始我把sql变成query直接查,所以报上面的问题。部分样例代码如下

val date = "2024/07/01" 

val query = s"SELECT * FROM your_table WHERE stat_date = TO_DATE('$date', 'YYYY/MM/DD')"

val df = spark.read
  .format("jdbc")
  .option("url", url)
  .option("dbtable", "user.table1")
  .option("user", user)
  .option("password", password)
  .option("numPartitions", "8") 
  .option("query", query) //
  .load()

这样是不行的,不能加query

解决

不加query,直接在这里整出全表数据,然后再filter一下我们要的数据

  .option("dbtable", "user.table1")

思考

其实一开始就是想要快一点读取oracle表数据,但是发现设置这个并行度和我调我们自己搞得类时间是差不多的。效率我在优化一下吧,看看时间怎么样

相关推荐
guitarCC10 小时前
spark Rdd的创建方式
大数据·分布式·spark
B站计算机毕业设计超人10 小时前
计算机毕业设计hadoop+spark知网文献论文推荐系统 知识图谱 知网爬虫 知网数据分析 知网大数据 知网可视化 预测系统 大数据毕业设计 机器学习
大数据·hadoop·爬虫·机器学习·spark·知识图谱·推荐算法
月亮月亮要去太阳16 小时前
spark-scala使用与安装(一)
大数据·spark·scala
武子康1 天前
大数据-133 - ClickHouse 基础概述 全面了解
java·大数据·分布式·clickhouse·flink·spark
码爸2 天前
spark读mongodb
大数据·mongodb·spark
妙龄少女郭德纲3 天前
基于Spark框架实现XGBoost模型
大数据·分布式·spark
南斯拉夫的铁托3 天前
(PySpark)RDD实验实战——求商品销量排行
python·spark·pyspark
全栈弟弟3 天前
高级大数据开发协会
大数据·数据仓库·hadoop·flink·spark
武子康5 天前
大数据-132 - Flink SQL 基本介绍 与 HelloWorld案例
java·大数据·数据库·sql·flink·spark·scala