大数据基础学习

失败才是人生常态2026-03-12 12:37

一、大数据的核心工作

采集：把各种来源的数据收集到一起 kafka
存储：妥善保存海量待处理数据：HDFS，Hive,
计算：完成海量数据的价值挖掘 MapReduce,Spark，Flink

二、Hadoop分布式软件框架

核心组件

HDFS：HDFS 是 Hadoop 内的分布式存储组件。可以构建分布式文件系统用于数据存储
MapReduce：MapReduce 是 Hadoop 内分布式计算组件。提供编程接口供用户开发分布式计算程序
YARN：YARN 是 Hadoop 内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。

三、Spark（离线计算引擎，替代 MapReduce）

核心优势：比 MapReduce 快（中间结果放内存，而非磁盘），支持批处理、流处理、SQL 查询；

四、Flink（实时计算引擎，面试高频）

核心场景：实时处理流式数据（比如电商实时订单、直播实时弹幕），替代 Spark Streaming；

五、辅助工具

Hive：数据仓库工具 → 类比后端的 "MySQL"，但基于 HDFS 存储，支持 SQL 查询（Hive SQL），可以理解为 "把SQL 翻译成 MapReduce/Spark 任务执行"；
Kafka：消息队列 → 你作为 Java 后端肯定用过 RocketMQ/RabbitMQ，Kafka 是大数据场景的 MQ（高吞吐、分布式），核心作用是 "数据传输管道"（比如业务系统产生的日志 / 订单，通过 Kafka 传给 Flink/Spark处理）；

上一篇：Spring Boot项目启动时输出PID、CPU和内存信息的4种方法

下一篇：社区治理新路径：如何通过专业的“物业投票系统”助力业委会高效成立？

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03CC-Switch & Claude 基于 Linux 服务器安装使用指南 04【AI】2026 年具身智能模型和世界模型总结 05零基础教你claude code 接入 deepseek V4 06AI科技热点日报 | 2026年5月11日 07人工智能最新动态 AI 日报 · 2026年5月10日 08codex app每次打开重连5次Reconnecting问题解决 09Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 10Cursor 接入 DeepSeek‑V4‑Pro 完整指南（2026 实测）