大数据基础学习

一、大数据的核心工作

  • 采集:把各种来源的数据收集到一起 kafka
  • 存储:妥善保存海量待处理数据:HDFS,Hive,
  • 计算:完成海量数据的价值挖掘 MapReduce,Spark,Flink

二、Hadoop分布式软件框架

核心组件

  • HDFS:HDFS 是 Hadoop 内的分布式存储组件。可以构建分布式文件系统用于数据存储
  • MapReduce:MapReduce 是 Hadoop 内分布式计算组件。提供编程接口供用户开发分布式计算程序
  • YARN:YARN 是 Hadoop 内分布式资源调度组件。可供用户整体调度大规模集群的资源使用。

三、Spark(离线计算引擎,替代 MapReduce)

核心优势:比 MapReduce 快(中间结果放内存,而非磁盘),支持批处理、流处理、SQL 查询;

四、Flink(实时计算引擎,面试高频)

核心场景:实时处理流式数据(比如电商实时订单、直播实时弹幕),替代 Spark Streaming;

五、辅助工具

  • Hive:数据仓库工具 → 类比后端的 "MySQL",但基于 HDFS 存储,支持 SQL 查询(Hive SQL),可以理解为 "把SQL 翻译成 MapReduce/Spark 任务执行";
  • Kafka:消息队列 → 你作为 Java 后端肯定用过 RocketMQ/RabbitMQ,Kafka 是大数据场景的 MQ(高吞吐、分布式),核心作用是 "数据传输管道"(比如业务系统产生的日志 / 订单,通过 Kafka 传给 Flink/Spark处理);
相关推荐
wb0430720120 分钟前
阿明的二次创业——从阿明用 AI 开第二家店,看 AI 原生创业的四阶段方法论
大数据·人工智能·架构
青岛前景互联信息技术有限公司24 分钟前
前景互联·新一代智能接处警系统:AI+大模型+Agent智能接处警一体化解决方案
大数据·人工智能·物联网
H__Rick26 分钟前
C51学习-DAY4
嵌入式硬件·学习·51单片机·硬件工程
red_redemption1 小时前
自由学习记录(201)
学习
一条泥憨鱼1 小时前
Java开发效率神器:Lombok从入门到精通!
java·后端·学习·开发·lombok
terry6001 小时前
2026滑动拼图验证码选型指南:AI对抗下的厂商对比与落地实测
大数据·人工智能·web安全·信息与通信·数据库架构
仓储管理员20251 小时前
六款WMS仓储管理系统功能与部署方式介绍
大数据·精选
阿部多瑞 ABU1 小时前
数据循环悖论:AI检测模型的技术局限与生态灾难
大数据·人工智能·安全·机器学习·ai·自然语言处理
desond1 小时前
杭州抖音代运营公司怎么选?品牌来杭考察前的选择参考
大数据·产品运营
数智化精益手记局1 小时前
拆解复杂项目管理流程:用项目管理流程解决跨部门协作低效难题
大数据·运维·数据库·人工智能·产品运营