大数据平台基础(Hadoop大数据原理与应用)

第1章 大数据概述

1、大数据内涵

大规模数据的集合体

捕捉、管理和处理数据的技术

2、大数据特征(4V特征)

Volume海量、Variety多样、Velocity快速(指快速流动和处理)、Value价值密度低

3、大数据与物联网、云计算、AI、5G的关系

第2章 初识Hadoop

1、Hadoop概述

Hadoop是一个分布式计算开源软件框架,是系统底层透明的分布式基础架构

Hadoop基于Java,使用简单的编程模型在计算机集群上对大数据进行分布式处理

Hadoop(2.0)的核心包括:HDFS、MapReduce、YARN

2、Hadoop生态系统

①Common:提供基础工具

②HDFS:Hadoop Distributed File System,分布式文件系统

③YARN:Yet Another Resource Negotiator,统一资源管理和调度框架

④MapReduce:计算框架

⑤HBase:开源数据库

⑥ZooKeeper:应用程序协调框架

⑦Hive:数据库工具,提供SQL接口

⑧Flume:日志采集、聚合、传输的框架

⑨Sqoop:SQL to Hadoop,关系数据库和Hadoop间的数据双向交换

⑩Kafka:发布订阅消息系统

3、Hadoop体系结构

Hadoop集群采用主从架构

NameNode、ResourceManager为主,DataNode、NodeManager为从

NameNode、DataNode负责完成HDFS的工作

ResourceManager、NodeManager负责完成YARN的工作

4、Hadoop运行模式

单机模式、伪分布模式、全分布模式

相关推荐
金融小师妹7 小时前
基于多模态宏观建模与历史序列对齐:原油能源供给冲击的“类1970年代”演化路径与全球应对机制再评估
大数据·人工智能·能源
播播资源7 小时前
OpenAI2026 年 3 月 18 日最新 gpt-5.4-nano模型:AI 智能体的“神经末梢”,以极低成本驱动高频任务
大数据·人工智能·gpt
GJGCY8 小时前
中小企业财务AI工具技术评测:四大类别架构差异与选型维度
大数据·人工智能·ai·架构·财务·智能体
发际线还在8 小时前
互联网大厂Java三轮面试全流程实战问答与解析
java·数据库·分布式·面试·并发·系统设计·大厂
九河云8 小时前
云上安全运营中心(SOC)建设:从被动防御到主动狩猎
大数据·人工智能·安全·架构·数字化转型
武子康8 小时前
大数据-252 离线数仓 - Airflow + Crontab 入门实战:定时调度、DAG 编排与常见报错排查
大数据·后端·apache hive
jinanwuhuaguo8 小时前
OpenClaw、飞书、Claude Code、Codex:四维AI生态体系的深度解构与颗粒化对比分析
大数据·人工智能·学习·飞书·openclaw
Rubin智造社9 小时前
# OpenClaude命令实战|核心控制三剑客/reasoning+/verbose+/status 实操指南
大数据·人工智能
华奥系科技10 小时前
智慧经济新格局:解码社区、园区与城市一体化建设逻辑
大数据·人工智能·科技·物联网·安全
TDengine (老段)10 小时前
TDengine IDMP 组态面板 —— 画布
大数据·数据库·物联网·时序数据库·tdengine·涛思数据