大数据基础学习

一、大数据的核心工作

  • 采集:把各种来源的数据收集到一起 kafka
  • 存储:妥善保存海量待处理数据:HDFS,Hive,
  • 计算:完成海量数据的价值挖掘 MapReduce,Spark,Flink

二、Hadoop分布式软件框架

核心组件

  • HDFS:HDFS 是 Hadoop 内的分布式存储组件。可以构建分布式文件系统用于数据存储
  • MapReduce:MapReduce 是 Hadoop 内分布式计算组件。提供编程接口供用户开发分布式计算程序
  • YARN:YARN 是 Hadoop 内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。

三、Spark(离线计算引擎,替代 MapReduce)

核心优势:比 MapReduce 快(中间结果放内存,而非磁盘),支持批处理、流处理、SQL 查询;

四、Flink(实时计算引擎,面试高频)

核心场景:实时处理流式数据(比如电商实时订单、直播实时弹幕),替代 Spark Streaming;

五、辅助工具

  • Hive:数据仓库工具 → 类比后端的 "MySQL",但基于 HDFS 存储,支持 SQL 查询(Hive SQL),可以理解为 "把SQL 翻译成 MapReduce/Spark 任务执行";
  • Kafka:消息队列 → 你作为 Java 后端肯定用过 RocketMQ/RabbitMQ,Kafka 是大数据场景的 MQ(高吞吐、分布式),核心作用是 "数据传输管道"(比如业务系统产生的日志 / 订单,通过 Kafka 传给 Flink/Spark处理);
相关推荐
星幻元宇VR19 分钟前
VR心理健康学习机|沉浸式心理教育新模式
科技·学习·安全·vr·虚拟现实
AC赳赳老秦7 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
QYR-分析7 小时前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能
·醉挽清风·8 小时前
学习笔记—MySQL—库表操作
笔记·学习·mysql
微擎应用8 小时前
全渠道批发订货商城小程序管理系统
大数据·小程序
卷毛迷你猪9 小时前
快速实验篇(A1)干旱气象数据上传至HDFS
大数据·hadoop·hdfs
白小沫9 小时前
TortoiseSVN是什么?
学习
weixin_451431569 小时前
【学习笔记】微博视频页面ajax请求与响应数据分析
笔记·学习·音视频
清辞85310 小时前
尾盘选股法程序开发学习初期
学习
Century_Dragon10 小时前
让实训“活”起来——信息化综合实训考核平台助力汽车专业教学
学习