大数据基础学习

一、大数据的核心工作

  • 采集:把各种来源的数据收集到一起 kafka
  • 存储:妥善保存海量待处理数据:HDFS,Hive,
  • 计算:完成海量数据的价值挖掘 MapReduce,Spark,Flink

二、Hadoop分布式软件框架

核心组件

  • HDFS:HDFS 是 Hadoop 内的分布式存储组件。可以构建分布式文件系统用于数据存储
  • MapReduce:MapReduce 是 Hadoop 内分布式计算组件。提供编程接口供用户开发分布式计算程序
  • YARN:YARN 是 Hadoop 内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。

三、Spark(离线计算引擎,替代 MapReduce)

核心优势:比 MapReduce 快(中间结果放内存,而非磁盘),支持批处理、流处理、SQL 查询;

四、Flink(实时计算引擎,面试高频)

核心场景:实时处理流式数据(比如电商实时订单、直播实时弹幕),替代 Spark Streaming;

五、辅助工具

  • Hive:数据仓库工具 → 类比后端的 "MySQL",但基于 HDFS 存储,支持 SQL 查询(Hive SQL),可以理解为 "把SQL 翻译成 MapReduce/Spark 任务执行";
  • Kafka:消息队列 → 你作为 Java 后端肯定用过 RocketMQ/RabbitMQ,Kafka 是大数据场景的 MQ(高吞吐、分布式),核心作用是 "数据传输管道"(比如业务系统产生的日志 / 订单,通过 Kafka 传给 Flink/Spark处理);
相关推荐
TechubNews14 小时前
新火集团首席经济学家付鹏演讲——2026 年是 Crypto 加入到 FICC 资产配置框架元年
大数据·人工智能
DeepModel14 小时前
通俗易懂讲透 Q-Learning:从零学会强化学习核心算法
人工智能·学习·算法·机器学习
Elastic 中国社区官方博客14 小时前
为 Elastic Cloud Serverless 和 Elasticsearch 引入统一的 API 密钥
大数据·运维·elasticsearch·搜索引擎·云原生·serverless
handler0115 小时前
从零实现自动化构建:Linux Makefile 完全指南
linux·c++·笔记·学习·自动化
安小牛16 小时前
Android 开发汉字转带声调的拼音
android·java·学习·android studio
仙女修炼史17 小时前
CNN的捷径学习Shortcut Learning in Deep Neural Networks
人工智能·学习·cnn
CS创新实验室17 小时前
CS实验室行业报告:机器人领域就业分析报告
大数据·人工智能·机器人
亚空间仓鼠18 小时前
网络学习实例:网络理论知识
网络·学习·智能路由器
薛定e的猫咪19 小时前
多智能体强化学习求解 FJSP 变体全景:动态调度、AGV 运输、绿色制造与开源代码导航
人工智能·学习·性能优化·制造
风兮雨露19 小时前
一建学习流程以及计划(附资料)
学习