Spark,数据清洗

数据清洗

先创建一个文档然后写几条数据

eg:如下姓名+年龄+性别 而数据中我们可明显看到第2,7行数据是错误的,现在我们把它洗掉

代码展示

运行结果:可以看到"脏"数据已经被洗出去了

**【拓展】:**如何把清洗之后的数据保存到一个文件中?

答:可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

复制代码
val singlePartitionRDD = cleanedLines.coalesce(1)
    // 保存清洗后的数据到文件
    val outputPath = "path/to/your/output/file.txt"
    singlePartitionRDD.saveAsTextFile(outputPath)
    // 停止 SparkContext
    sc.stop()
相关推荐
巨龙之路29 分钟前
【TDengine源码阅读】TAOS_DEF_ERROR_CODE(mod, code)
大数据·时序数据库·tdengine
钊兵1 小时前
hivesql是什么数据库?
大数据·hive
人大博士的交易之路2 小时前
今日行情明日机会——20250516
大数据·数学建模·数据挖掘·程序员创富·缠中说禅·涨停回马枪·道琼斯结构
斯普信专业组2 小时前
Elasticsearch索引全生命周期管理指南之一
大数据·elasticsearch·搜索引擎
好吃的肘子3 小时前
MongoDB 应用实战
大数据·开发语言·数据库·算法·mongodb·全文检索
招风的黑耳4 小时前
Axure设计的“广东省网络信息化大数据平台”数据可视化大屏
大数据·信息可视化·原型·数据可视化
野曙5 小时前
快速选择算法:优化大数据中的 Top-K 问题
大数据·数据结构·c++·算法·第k小·第k大
电商数据girl6 小时前
酒店旅游类数据采集API接口之携程数据获取地方美食品列表 获取地方美餐馆列表 景点评论
java·大数据·开发语言·python·json·旅游
OJAC近屿智能6 小时前
ChatGPT再升级!
大数据·人工智能·百度·chatgpt·近屿智能