数据处理生产环境_spark获取df列当前日期的前一天日期

需求描述:

我现在有一个dataframe,名为dfin,样例数据如下

a1_id_lxh a2_PH time
比亚迪_汉 123 2023-11-15 12:12:23
比亚迪_汉 125 2023-11-15 13:14:51
比亚迪_汉 123 2023-11-15 12:13:23
比亚迪_汉 126 2023-11-16 14:12:34
比亚迪_秦 231 2023-11-15 14:12:28
比亚迪_秦 234 2023-11-16 16:12:51
比亚迪_秦 231 2023-11-15 12:13:51
比亚迪_秦 231 2023-11-15 12:14:51

现在我每天接入实时数据,保存在库里,时间为最近时间的两天数据,比如今天是20号,数据库里存的数据就是19号,20号的数据,现在我要进行跑批任务,将数据库里的19号的数据离线跑批进行部分逻辑处理后,增加的存入

代码

Scala 复制代码
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
import java.text.SimpleDateFormat
import java.util.Date

val spark = SparkSession.builder.appName("DateSubtraction").getOrCreate()

import spark.implicits._
//测试data,实际生产中我们接前序dataframe
//20231121_lxh
//https://blog.csdn.net/qq_52128187?type=blog
val data = Seq(
  ("比亚迪_汉", 123, "2023-11-15 12:12:23"),
  ("比亚迪_汉", 125, "2023-11-15 13:14:51"),
  ("比亚迪_汉", 123, "2023-11-15 12:13:23"),
  ("比亚迪_汉", 126, "2023-11-16 14:12:34"),
  ("比亚迪_秦", 231, "2023-11-15 14:12:28"),
  ("比亚迪_秦", 234, "2023-11-16 16:12:51"),
  ("比亚迪_秦", 231, "2023-11-15 12:13:51"),
  ("比亚迪_秦", 231, "2023-11-15 12:14:51")
)
//以此为例
val df = data.toDF("a1", "a2", "time")

val dateFormat = new SimpleDateFormat("yyyy-MM-dd")
val currentDate = dateFormat.format(new Date())

val dfinWithNewColumn = df.withColumn("date_subtracted", date_sub(to_date($"time"), 1))

dfinWithNewColumn.show()
//后面在处理的话直接转为创建临时表或者再进行后续操作即可
//https://blog.csdn.net/qq_52128187?type=blog

输出结果

a1 a2 time date_subtracted
比亚迪_汉 123 2023-11-15 12:12:23 2023-11-14 12:12:23
比亚迪_汉 125 2023-11-15 13:14:51 2023-11-14 13:14:51
比亚迪_汉 123 2023-11-15 12:13:23 2023-11-14 12:13:23
比亚迪_汉 126 2023-11-16 14:12:34 2023-11-15 14:12:34
比亚迪_秦 231 2023-11-15 14:12:28 2023-11-14 14:12:28
比亚迪_秦 234 2023-11-16 16:12:51 2023-11-15 16:12:51
比亚迪_秦 231 2023-11-15 12:13:51 2023-11-14 12:13:51
比亚迪_秦 231 2023-11-15 12:14:51 2023-11-14 12:14:5
相关推荐
lucky_syq9 分钟前
Hive SQL和Spark SQL的区别?
hive·sql·spark
m0_7482448319 分钟前
StarRocks 排查单副本表
大数据·数据库·python
NiNg_1_23421 分钟前
Hadoop中MapReduce过程中Shuffle过程实现自定义排序
大数据·hadoop·mapreduce
B站计算机毕业设计超人26 分钟前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习
大数据·人工智能·爬虫·python·机器学习·课程设计·数据可视化
沛沛老爹36 分钟前
什么是 DevOps 自动化?
大数据·ci/cd·自动化·自动化运维·devops
喝醉酒的小白2 小时前
Elasticsearch(ES)监控、巡检及异常指标处理指南
大数据·elasticsearch·搜索引擎
lucky_syq2 小时前
Spark和Hadoop之间的区别
大数据·hadoop·spark
溟洵7 小时前
Linux下学【MySQL】表中插入和查询的进阶操作(配实操图和SQL语句通俗易懂)
linux·运维·数据库·后端·sql·mysql
路在脚下@12 小时前
spring boot的配置文件属性注入到类的静态属性
java·spring boot·sql
WTT001113 小时前
2024楚慧杯WP
大数据·运维·网络·安全·web安全·ctf