import org.apache.spark.{SparkConf, SparkContext}
object DataFilter {
// 思路
// 1. 读取数据,读入文本文件
// 2. 对于文件中的每一行
// 拆分出年龄split(",")(1)
// 判断是不是数字,是,就保留记录"45","abc" (正则表达式 \d+)
// 3. 把过滤之后的内容,保存到文件saveAsTexttFile()
def main(args: Array[String]): Unit = {
// 创建spark
val conf = new SparkConf().setAppName("DataFilter").setMaster("local[*]")
val sc = new SparkContext(conf)
val rdd = sc.textFile("data/file.txt")
// 过滤之后的rdd
var rdd1 = rdd.filter(line => {
// 拆分出年龄
val age = line.split(",")(1)
// 判断年龄是否是数字
println(age)
age.matches("\\d+")
})
//将所有的分区数据合并成一个分区
rdd1 = rdd1.coalesce(1)
//保存到文件
rdd1.saveAsTextFile("data/file1.txt")
}
}
spark数据清洗
只因只因爆2025-05-16 13:40
相关推荐
whuang0941 小时前
腾讯云 emr 无法以cosn 写入云存储weixin_370976351 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?小江的记录本3 小时前
【Kafka核心】架构模型:Producer、Broker、Consumer、Consumer Group、Topic、Partition、Replica一切皆是因缘际会3 小时前
AI数字分身的底层原理:破解意识、自我与人格复刻的核心难题上海光华专利事务所4 小时前
跨境电商商标专利管理平台Elastic 中国社区官方博客4 小时前
ES|QL METRICS_INFO 和 TS_INFO:为你的时间序列数据建立目录jinanwuhuaguo6 小时前
(第二十七篇)OpenClaw四月的演化风暴:OpenClaw 2026年4月全版本更新的文明级解读清晨0016 小时前
工业生产实时数据获取方案-TDengine极创信息6 小时前
信创产品认证怎么做?信创产品测试认证的主要流程Elastic 中国社区官方博客7 小时前
Elastic 和 Cursor 合作 加速 上下文工程 与 coding agents