大数据基础学习

一、大数据的核心工作

  • 采集:把各种来源的数据收集到一起 kafka
  • 存储:妥善保存海量待处理数据:HDFS,Hive,
  • 计算:完成海量数据的价值挖掘 MapReduce,Spark,Flink

二、Hadoop分布式软件框架

核心组件

  • HDFS:HDFS 是 Hadoop 内的分布式存储组件。可以构建分布式文件系统用于数据存储
  • MapReduce:MapReduce 是 Hadoop 内分布式计算组件。提供编程接口供用户开发分布式计算程序
  • YARN:YARN 是 Hadoop 内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。

三、Spark(离线计算引擎,替代 MapReduce)

核心优势:比 MapReduce 快(中间结果放内存,而非磁盘),支持批处理、流处理、SQL 查询;

四、Flink(实时计算引擎,面试高频)

核心场景:实时处理流式数据(比如电商实时订单、直播实时弹幕),替代 Spark Streaming;

五、辅助工具

  • Hive:数据仓库工具 → 类比后端的 "MySQL",但基于 HDFS 存储,支持 SQL 查询(Hive SQL),可以理解为 "把SQL 翻译成 MapReduce/Spark 任务执行";
  • Kafka:消息队列 → 你作为 Java 后端肯定用过 RocketMQ/RabbitMQ,Kafka 是大数据场景的 MQ(高吞吐、分布式),核心作用是 "数据传输管道"(比如业务系统产生的日志 / 订单,通过 Kafka 传给 Flink/Spark处理);
相关推荐
AI成长日志21 小时前
【datawhale】hello agents开源课程学习记录第6章:智能体框架开发实践
学习·开源
会飞的老朱21 小时前
AI+OA协同办公,重构办公模式,加速企业数字化转型!
大数据·oa协同办公·智能办公平台
東雪木21 小时前
Java学习——重载 (Overload) 与重写 (Override) 的核心区别、底层实现规则
java·开发语言·jvm·学习·java面试
zl_dfq21 小时前
Python学习4 之 【函数】(函数的相关语法、下划线的使用、global与nonlocal关键字)
python·学习
承渊政道21 小时前
【优选算法】(实战剖析链表核心操作技巧)
开发语言·数据结构·c++·vscode·学习·算法·链表
Francek Chen21 小时前
【大数据存储与管理】分布式数据库HBase:06 HBase编程实践
大数据·数据库·hadoop·分布式·hbase
li星野21 小时前
DeepSeek-V3介绍
学习
财经汇报1 天前
“蜂联AI Agent”推动普惠创新 看AI如何助力供应链金融
大数据·人工智能·金融
电子科技圈1 天前
芯科科技驱动和重塑智能门锁行业格局多协议、安全性、AI技术与开发工具共同赋能
大数据·人工智能·嵌入式硬件·mcu·物联网·智能家居·iot