Hadoop 十年:从谷歌论文到全球企业的标配技术

Hadoop简介

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)HDFS。

HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

组成

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。

HDFS的架构是基于一组特定的节点构建的,这些节点包括NameNode,在HDFS内部提供元数据服务;DataNode为HDFS提供存储块;SecondNameNode解决了单点问题

  • NameNode

    存储HDFS元数据(fsimage HDFS元数据镜像文件 以及 editlog HDFS文件改动日志)

    管理文件系统的命名空间

    创建、删除、移动、重命名文件和文件夹

    接收从DataNode来的Heartbeat和Blockreport,监控其健康状态

  • SecondNameNode

    定期合并fsimage和editlog,并传输给NameNode

    合并时间根据配置文件来进行配置

    • fs.checkpoint.period 时间间隔,默认3600s
    • fs.checkpoint.size edits log大小,默认64M
  • DataNode

    存储数据块(以固定的block为基本单位组织文件内容)

    执行从NameNode来的文件操作命令

    定时向NameNode发送Heartbeat和Blockreport

发行版本

Hadoop有三大发行版本:Apache、Cloudera、Hortonworks

  • Apache 最基础的版本 apache版
  • Cloudera 企业中使用最多的版本(收费) cdh版
  • Hortonworks 文档较好

优势

  • 高可用 Hadoop底层维护了多个数据副本,即使某个计算元素或者存储出现故障,也不会导致数据的丢失
  • 高扩展 在集群间分配任务数据,可方便的扩展数以千计的节点
  • 高效性 Hadoop并行工作,加快任务处理速度
  • 高容错性 可以自动将失败的任务重新分配

场景

适合

  • 大规模数据
  • 写一次,读多次

不适合

  • 低延时的数据访问
  • 大量的小文件
  • 频繁修改文件

配置

配置文件在hadoop下/etc目录下,有几个重要的配置文件

系统默认配置文件为core-default.xml、hdfs-default.xml、mapred-default.xml;管理员自定义配置文件为core-site.xml、hdfs-site.xml、mapred-site.xml,用于定义新的配置属性或者覆盖系统默认配置文件中的默认值。Hadoop会默认优先加载默认配置文件

core-site.xml

这是hadoop的核心配置文件

xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
	<!-- fs.defaultFS用于配置NameNode节点的URI,协议、主机或IP、端口 -->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://localhost:9000</value>
	</property>
	<!-- hadoop.tmp.dir文件系统依赖的基础配置,如果在hdfs-site.xml中不配置NameNode节点和DataNode节点的数据存放位置时,默认放在该目录下 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/data/hadoop/tmp</value>
	</property>
</configuration>

hdfs-site.xml

xml 复制代码
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- 数据备份数 -->
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
	<!-- NameNode节点文件数据存储路径 -->
	<property>
		<name>dfs.name.dir</name>
		<value>/opt/data/hadoop/namenode</value>
	</property>
	<!-- DataNode节点文件数据存储路径-->
	<property>
		<name>dfs.data.dir</name>
		<value>/opt/data/hadoop/datanode</value>
	</property>
</configuration>

mapred-site.xml

xml 复制代码
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
	<!-- 配置jobTracker的主机名或者ip、端口   还可以配置TaskTracker-->
	<property>
		<name>mapred.job.tracker</name>
		<value>localhost:9001</value>
	</property>

</configuration>

启动

shell 复制代码
# 初始化namenode
hdfs namenode -format

# 启动hadoop(会启动 SecondaryNameNode、NameNode、NodeManager、ResourceManager、DataNode服务)  这个要去start-all.sh所在目录去执行  否则会报错 原因未知
./start-all.sh


# 验证  创建文件
hdfs dfs -mkdir /test

# 查看文件
hdfs dfs -ls /
端口名称 Hadoop2.x Hadoop3.x
NameNode内部通信端口 8020 / 9000 8020 / 9000/9820
NameNode HTTP UI 50070 9870
MapReduce查看执行任务端口 8088 8088
历史服务器通信端口 19888 19888

参考文献

相关推荐
bxlj_jcj1 小时前
解锁Flink CDC:实时数据同步秘籍
大数据·flink
悢七1 小时前
flink1.19.2+cdc-3.2.1遇到的问题及解决方案
大数据·flink
wanhengidc3 小时前
大数据服务器和普通服务器之间的区别
大数据·运维·服务器
网硕互联的小客服3 小时前
如何诊断服务器硬盘故障?出现硬盘故障如何处理比较好?
大数据·运维·服务器
从零开始学习人工智能4 小时前
Doris 与 Elasticsearch:谁更适合你的数据分析需求?
大数据·elasticsearch·数据分析
TDengine (老段)6 小时前
TDengine 快速体验(Docker 镜像方式)
大数据·数据库·物联网·docker·时序数据库·tdengine·涛思数据
金融小师妹6 小时前
解码美元-黄金负相关:LSTM-Attention因果发现与黄金反弹推演
大数据·人工智能·算法
安科瑞刘鸿鹏6 小时前
双碳时代,能源调度的难题正从“发电侧”转向“企业侧”
大数据·运维·物联网·安全·能源
时序数据说7 小时前
时序数据库IoTDB数据模型建模实例详解
大数据·数据库·开源·时序数据库·iotdb
时序数据说7 小时前
时序数据库IoTDB结合SeaTunnel实现高效数据同步
大数据·数据库·开源·时序数据库·iotdb