一、大数据的核心工作
- 采集:把各种来源的数据收集到一起 kafka
- 存储:妥善保存海量待处理数据:HDFS,Hive,
- 计算:完成海量数据的价值挖掘 MapReduce,Spark,Flink
二、Hadoop分布式软件框架
核心组件
- HDFS:HDFS 是 Hadoop 内的分布式存储组件。可以构建分布式文件系统用于数据存储
- MapReduce:MapReduce 是 Hadoop 内分布式计算组件。提供编程接口供用户开发分布式计算程序
- YARN:YARN 是 Hadoop 内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。
三、Spark(离线计算引擎,替代 MapReduce)
核心优势:比 MapReduce 快(中间结果放内存,而非磁盘),支持批处理、流处理、SQL 查询;
四、Flink(实时计算引擎,面试高频)
核心场景:实时处理流式数据(比如电商实时订单、直播实时弹幕),替代 Spark Streaming;
五、辅助工具
- Hive:数据仓库工具 → 类比后端的 "MySQL",但基于 HDFS 存储,支持 SQL 查询(Hive SQL),可以理解为 "把SQL 翻译成 MapReduce/Spark 任务执行";
- Kafka:消息队列 → 你作为 Java 后端肯定用过 RocketMQ/RabbitMQ,Kafka 是大数据场景的 MQ(高吞吐、分布式),核心作用是 "数据传输管道"(比如业务系统产生的日志 / 订单,通过 Kafka 传给 Flink/Spark处理);