Spark,数据清洗

数据清洗

先创建一个文档然后写几条数据

eg:如下姓名+年龄+性别 而数据中我们可明显看到第2,7行数据是错误的,现在我们把它洗掉

代码展示

运行结果:可以看到"脏"数据已经被洗出去了

**【拓展】:**如何把清洗之后的数据保存到一个文件中?

答:可以使用coalesce(1)这个方法可以让结果全部保存在一个文件中。

复制代码
val singlePartitionRDD = cleanedLines.coalesce(1)
    // 保存清洗后的数据到文件
    val outputPath = "path/to/your/output/file.txt"
    singlePartitionRDD.saveAsTextFile(outputPath)
    // 停止 SparkContext
    sc.stop()
相关推荐
数据库安全10 分钟前
山东省某三甲医院基于分类分级的数据安全防护建设实践
大数据·人工智能
七牛云行业应用12 分钟前
从API调用到智能体编排:GPT-5时代的AI开发新模式
大数据·人工智能·gpt·openai·agent开发
蒙特卡洛的随机游走26 分钟前
Spark的宽依赖与窄依赖
大数据·前端·spark
智象科技1 小时前
CMDB报表体系如何驱动智能运维
大数据·运维·报表·一体化运维·cmdb
yumgpkpm2 小时前
华为鲲鹏 Aarch64 环境下多 Oracle 数据库汇聚操作指南 CMP(类 Cloudera CDP 7.3)
大数据·hive·hadoop·elasticsearch·zookeeper·big data·cloudera
howard20052 小时前
初次使用基于K3S的大数据平台
大数据·k3s·cloudeon
Lansonli2 小时前
大数据Spark(六十九):Transformation转换算子intersection和subtract使用案例
大数据·分布式·spark
TDengine (老段)2 小时前
TDengine 数据函数 LEAST 用户手册
大数据·数据库·sql·时序数据库·tdengine
Elastic 中国社区官方博客2 小时前
AI Agent 评估:Elastic 如何测试代理框架
大数据·人工智能·elasticsearch·搜索引擎
JAVA学习通3 小时前
开源 | MeiGen-MultiTalk:基于单张照片实现多人互动演绎
大数据·音视频·视频