RDD案例数据清洗

在 Spark 中,RDD(Resilient Distributed Dataset)是分布式数据集的基本抽象。数据清洗是数据预处理中的一个重要步骤,通常包括去除重复数据、过滤无效数据、转换数据格式等操作。以下是一个使用 RDD 进行数据清洗的完整示例。

示例场景

假设我们有一个包含用户信息的文本文件 users.txt,每行是一个用户记录,格式如下:

复制代码
user1,25,China
user2,30,USA
user3,invalid,Australia
user4,22,China
user5,28,USA
user6,35,invalid

我们需要对数据进行清洗,包括:

  1. 过滤掉无效的年龄数据(非数字或不在合理范围)。
  2. 过滤掉无效的国家数据(只保留指定的国家,如 ChinaUSA)。
  3. 去除重复的用户记录。

实现步骤

  1. 创建 SparkContext:初始化 Spark 环境。
  2. 读取数据:从文件中加载数据到 RDD。
  3. 数据清洗:过滤无效数据和重复数据。
  4. 保存结果:将清洗后的数据保存到文件。

以下是完整的代码实现:

scala 复制代码
import org.apache.spark.{SparkConf, SparkContext}

object DataCleaning {
  def main(args: Array[String]): Unit = {
    // 初始化 Spark 环境
    val conf = new SparkConf()
      .setAppName("DataCleaning")
      .setMaster("local[*]") // 使用本地模式运行
    val sc = new SparkContext(conf)

    // 读取数据
    val inputPath = "path/to/users.txt"
    val rawData = sc.textFile(inputPath)

    // 数据清洗
    val cleanedData = rawData
      .map(line => line.split(",")) // 将每行数据分割为数组
      .filter(arr => arr.length == 3) // 确保每行有三个字段
      .filter(arr => {
        // 过滤无效年龄数据
        val age = try {
          arr(1).toInt
        } catch {
          case _: NumberFormatException => -1
        }
        age >= 18 && age <= 100 // 假设年龄范围为 18 到 100
      })
      .filter(arr => {
        // 过滤无效国家数据
        val country = arr(2)
        country == "China" || country == "USA"
      })
      .map(arr => (arr(0), arr(1), arr(2))) // 转换为元组
      .distinct() // 去除重复记录

    // 保存清洗后的数据
    val outputPath = "path/to/cleaned_users.txt"
    cleanedData.saveAsTextFile(outputPath)

    // 停止 SparkContext
    sc.stop()
  }
}

代码说明

  1. 初始化 Spark 环境

    • 使用 SparkConf 配置 Spark 应用程序的名称和运行模式(本地模式)。
    • 创建 SparkContext 实例。
  2. 读取数据

    • 使用 sc.textFile 方法从指定路径加载数据到 RDD。
  3. 数据清洗

    • 使用 map 方法将每行数据分割为数组。
    • 使用 filter 方法过滤无效的年龄数据和国家数据。
    • 使用 distinct 方法去除重复记录。
  4. 保存结果

    • 使用 saveAsTextFile 方法将清洗后的数据保存到指定路径。

示例输入和输出

输入文件 users.txt
复制代码
user1,25,China
user2,30,USA
user3,invalid,Australia
user4,22,China
user5,28,USA
user6,35,invalid
user1,25,China
输出文件 cleaned_users.txt
复制代码
user1,25,China
user2,30,USA
user4,22,China
user5,28,USA

运行项目

  1. 将上述代码保存为 DataCleaning.scala 文件。
  2. 在 IntelliJ IDEA 中运行该程序。
  3. 查看输出文件 cleaned_users.txt,确保数据清洗结果正确。

通过以上步骤,你可以使用 Spark 的 RDD API 完成数据清洗任务。

相关推荐
深蓝电商API6 小时前
分布式事务在跨境交易中的解决方案
分布式·跨境电商·代购系统·反向海淘·代购平台·跨境代购
藦卡机器人6 小时前
中国工业机器人发展现状
大数据·人工智能·机器人
Simon_lca7 小时前
突破合规瓶颈:ZDHC Supplier to Zero(工厂零排放 - 进阶型)体系全攻略
大数据·网络·人工智能·分类·数据挖掘·数据分析·零售
黄焖鸡能干四碗8 小时前
网络安全建设实施方案(Word文件参考下载)
大数据·网络·人工智能·安全·web安全·制造
云境筑桃源哇9 小时前
马踏春风 为爱启航 | 瑞派宠物医院(南部新城旗舰店)盛大开业!打造宠物医疗新标杆!
大数据·宠物
我真会写代码10 小时前
从入门到精通:Kafka核心原理与实战避坑指南
分布式·缓存·kafka
xixixi7777710 小时前
2026 年 03 月 20 日 AI+通信+安全行业日报(来更新啦)
大数据·人工智能·安全·ai·大模型·通信
F36_9_10 小时前
大数据治理平台选型避坑:2026 年 8 大主流系统实测
大数据·数据治理
成长之路51410 小时前
【实证分析】A股上市公司企业劳动力需求数据集(2000-2023年)
大数据
奔跑的呱呱牛11 小时前
GeoJSON 在大数据场景下为什么不够用?替代方案分析
java·大数据·servlet·gis·geojson