Spark处理方法_提取文件名中的时间

需求描述

通过读取目录下的类似文件的datapath路径的文件名及文件内容,需要将读取的每一个文件的文件名日期解析出来,并作为读取当前文件内容递归读取当前文件一个df列,列名为"时间";后面就是读一个文件,解析一下时间,将时间添加到所读文件的dataframe中,相当于给每一个读的文件内容添加了当前读取文件解析出来的时间列,以此递归循环。读取每一个文件后都要加上一列此文件解析出来的时间,形式如下

复制代码
  Reading file: hdfs://master.test.com:8020/data/测试文件/_L_20231025095119.txt
  Reading file: hdfs://master.test.com:8020/data/测试文件/_L_20231026095119.txt
  Reading file: hdfs://master.test.com:8020/data/测试文件/_L_20231027095119.txt

内容形式如下

复制代码
  文件名:L_20231025095119.txt
  文件内容:id,imsi,lon,lat
  ......
  文件名:L_20231026095119.txt
  文件内容:id,imsi,lon,lat
  ......
  文件名:L_20231027095119.txt
  文件内容:id,imsi,lon,lat
  ......
  我要的文件内容输出形式为
  id,imsi,lon,lat,20231025095119
  ...
  id,imsi,lon,lat,20231026095119
  ...
  id,imsi,lon,lat,20231027095119
  ......

代码片段:

Scala 复制代码
...
...
//打印读取目录下的文件名
println("文件datapath路径")
if (dataPath.isEmpty) {
  println("No files to read.")
} else {
  for (path <- dataPath) {
    println(s"Reading file: $path")
  }
}
// 解析时间字段
// 提取文件名中的时间部分,格式为:"_L_20231111095119.txt" 中的 "20231111095119"
// 由于文件名是按目录读取的,因此要变成字符串形式并以逗号隔开
val filePath = dataPath.mkString(",")
val fileName = filePath.split("/").last.stripSuffix(".csv")
val timeStr = fileName.split("_").last
val year = timeStr.substring(0, 4)
val month = timeStr.substring(4, 6)
val day = timeStr.substring(6, 8)
val hour = timeStr.substring(8, 10)
val minute = timeStr.substring(10, 12)
val second = timeStr.substring(12, 14)
val time = s"$year-$month-$day $hour:$minute:$second"
println(time)
// 输出时间类似:2023-03-01 09:51:19
...
...
val rddAll = if(dataPath.isEmpty){
    sc.emptyRDD[(LongWritable,Text)]
} else {
    sc.newAPIHadoopRDD(jobConf,classOf[CombineTextInputFormat],classOf[LongWritable],classOf[Text])
    
}

val firstLine = {
    if(rddAll.take(1).length == 0){
        null
    } else {
        val firstLineTemp = rddAll.first()._2
        getAfterSplitArray(delimiter,new String(firstLineTemp.getBytes,0,firstLineTemp.getLength,encoding))
    }
}
...
...
val outDF = sqlc.createDataFrame(outRDD,schema)
//2修改
val outDF1 = outDF.withColumn("时间", lit(time))
outDF1.show()
相关推荐
听你说322 小时前
科技护航极限征程 三诺生物助力雄关330长城越野赛
大数据·科技·健康医疗
电商API_180079052472 小时前
bilibili关键字搜索视频列表|获取视频详情API调用示例
大数据·数据挖掘·网络爬虫·音视频
数智顾问5 小时前
(151页PPT)XX集团信息化整体架构规划及ERP方案建议书(附下载方式)
大数据·架构
天行健,君子而铎5 小时前
2026年通用行业数据分类分级产品排名——聚焦成本低、全链路覆盖与高性能计算的优质选型
大数据·数据库·人工智能
财经资讯数据_灵砚智能6 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月10日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
电商API_180079052476 小时前
Python 实现闲鱼商品列表批量采集,接口异常重试机制搭建
大数据·开发语言·数据库·爬虫·python
Java 码思客7 小时前
【ElasticSearch从入门到架构师】第3章:ES 核心基础概念(架构师必备底层认知)
大数据·elasticsearch·jenkins
德昂信息dataondemand7 小时前
BI项目中的主数据管理:如何确保跨部门数据一致性?
大数据
申通之声7 小时前
以体验和AI重构竞争力,申通要“构建生态共同体”
大数据·网络·人工智能·重构·交通物流
terry6007 小时前
2026图形验证码服务商横向测评|口碑、接入、安全选型全指南
java·大数据·人工智能·web安全·信息与通信·数据库架构