Spark,数据清洗

数据清洗

先创建一个文档然后写几条数据

eg:如下姓名+年龄+性别 而数据中我们可明显看到第2,7行数据是错误的,现在我们把它洗掉

代码展示

运行结果:可以看到"脏"数据已经被洗出去了

**【拓展】:**如何把清洗之后的数据保存到一个文件中?

答:可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

复制代码
val singlePartitionRDD = cleanedLines.coalesce(1)
    // 保存清洗后的数据到文件
    val outputPath = "path/to/your/output/file.txt"
    singlePartitionRDD.saveAsTextFile(outputPath)
    // 停止 SparkContext
    sc.stop()
相关推荐
西魏陶渊明3 分钟前
Agent 并不是智能体,而是 LLM 参与决策的业务系统
大数据·人工智能
Datacarts15 分钟前
AI大模型时代:1688商品数据API如何重构电商智能决策
大数据·人工智能·重构
渣渣盟3 小时前
Flink Table API与SQL流数据处理实战
大数据·sql·flink·scala
疯狂成瘾者9 小时前
上传到 GitHub 的步骤总结
大数据·elasticsearch·github
七夜zippoe13 小时前
OpenClaw 接入 WhatsApp:消息推送实战
大数据·人工智能·microsoft·whatsapp·openclaw
RFID科技的魅力13 小时前
从开箱到实战:CP300R触屏RFID打印机全场景使用测评
大数据·人工智能·物联网·rfid
Forrit16 小时前
Agent长期运行(Long-Running Tasks)实现方案与核心挑战
大数据·人工智能·深度学习
2601_9553631516 小时前
技术赋能B端拓客:号码核验的行业困局与破局路径氪迹科技法人股东筛选系统,阶梯式价格
大数据·人工智能