大数据基础学习

一、大数据的核心工作

  • 采集:把各种来源的数据收集到一起 kafka
  • 存储:妥善保存海量待处理数据:HDFS,Hive,
  • 计算:完成海量数据的价值挖掘 MapReduce,Spark,Flink

二、Hadoop分布式软件框架

核心组件

  • HDFS:HDFS 是 Hadoop 内的分布式存储组件。可以构建分布式文件系统用于数据存储
  • MapReduce:MapReduce 是 Hadoop 内分布式计算组件。提供编程接口供用户开发分布式计算程序
  • YARN:YARN 是 Hadoop 内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。

三、Spark(离线计算引擎,替代 MapReduce)

核心优势:比 MapReduce 快(中间结果放内存,而非磁盘),支持批处理、流处理、SQL 查询;

四、Flink(实时计算引擎,面试高频)

核心场景:实时处理流式数据(比如电商实时订单、直播实时弹幕),替代 Spark Streaming;

五、辅助工具

  • Hive:数据仓库工具 → 类比后端的 "MySQL",但基于 HDFS 存储,支持 SQL 查询(Hive SQL),可以理解为 "把SQL 翻译成 MapReduce/Spark 任务执行";
  • Kafka:消息队列 → 你作为 Java 后端肯定用过 RocketMQ/RabbitMQ,Kafka 是大数据场景的 MQ(高吞吐、分布式),核心作用是 "数据传输管道"(比如业务系统产生的日志 / 订单,通过 Kafka 传给 Flink/Spark处理);
相关推荐
北京软秦科技有限公司2 小时前
IACheck AI报告文档审核:高端制造标准引用报告审核的智能导航
大数据·人工智能·制造
星幻元宇VR2 小时前
VR社区安全学习机:居民安全教育新选择
科技·学习·安全·vr·虚拟现实
困死,根本不会2 小时前
Electron 开发环境搭建超详细学习笔记
笔记·学习·electron
中烟创新2 小时前
技术深耕,全域赋能:中烟创新产品矩阵与OpenClaw实现深度融合
大数据·人工智能
QYR_Jodie2 小时前
稳健增速托举刚需扩容:全球X射线荧光光谱仪(XRF)2026-2032年CAGR4.8%,2032年剑指11.73亿美元
大数据·人工智能·市场报告
昨夜见军贴06162 小时前
IACheck AI报告文档审核助力新能源汽车:降低电磁兼容(EMC)检测报告风险,确保合规性与准确性
大数据·人工智能·汽车
是店小二呀2 小时前
用 Rokid AR 眼镜打造沉浸式外语学习助手:从想法到落地的完整开发实录
学习·ar
zml.~2 小时前
Spark大数据分析:解锁海量数据价值的核心利器
大数据·数据分析·spark
岁岁种桃花儿2 小时前
Flink从入门到上天系列第十四篇:Flink当中的处理函数
大数据·flink