大数据（2）大数据处理架构Hadoop

一、Hadoop简介

1.定义

Hadoop 是一个开源的分布式计算框架，由 Apache 基金会开发，用于处理海量数据，具备高可靠性、高扩展性和高容错性。它主要由两个核心模块组成：

HDFS（Hadoop Distributed File System）：分布式文件系统，用于存储大规模数据，具备高容错能力和高吞吐量。
MapReduce：分布式计算框架，用于并行处理大数据，通过"映射-归约"模型实现任务分解与执行。

Hadoop 适合运行在廉价硬件集群上，是大数据处理的重要基础平台。

2.特性

高可靠性：通过数据冗余和副本机制，确保在节点故障时数据依然安全可用。
高效性：采用并行计算方式，能够快速处理海量数据，提升计算效率。
高可扩展性：支持通过增加节点来水平扩展系统，轻松应对数据增长。
高容错性：在节点故障时自动切换和恢复任务，确保系统稳定运行。
成本低：可以部署在普通的廉价服务器上，无需高性能硬件，节省成本。
支持运行在 Linux 操作系统上：Hadoop 主要设计为在 Linux 环境下运行，性能稳定、兼容性好。
支持多种编程语言：除 Java 外，还支持 Python、C++ 等语言开发 MapReduce 程序，方便开发者使用。

二、hadoop生态系统

组件	功能简述
HDFS	分布式存储系统
MapReduce	批处理计算框架
YARN	资源管理与任务调度
Hive	数据仓库，支持 SQL 查询
HBase	实时数据库
Pig	脚本式数据处理语言
Sqoop	RDBMS 与 Hadoop 间数据迁移
Flume	日志/数据采集工具
Kafka	高吞吐消息队列
Storm	实时流处理框架
Spark	高性能分布式计算框架
Flink	实时数据处理引擎
Oozie	工作流调度工具
Zookeeper	分布式协调服务
Ambari	集群管理与监控工具

三、HDFS启动停止命令

启动：cd /usr/local/hadoop

./sbin/start-dfs.sh

停止：./sbin/stop-dfs.sh

四、常见的linux命令

（1）目录操作命令

1. `cd`：切换目录

功能	命令
切换到 `/usr/local`	`cd /usr/local`
返回上层目录	`cd ..`
回到主文件夹	`cd ~` 或 `cd`

2. `ls`：查看文件与目录

功能	命令
查看 `/usr` 下所有文件	`ls /usr` 或 `ls -l /usr`

3. `mkdir`：新建目录

功能	命令
在 `/tmp` 下创建目录 `a`	`cd /tmp && mkdir a`
查看当前目录有多少子目录	`ls -l
创建多层目录 a1/a2/a3/a4	`mkdir -p a1/a2/a3/a4`

4. `rmdir`：删除空目录

功能	命令
删除 `/tmp/a` 目录	`rmdir /tmp/a`
依次删除 a1/a2/a3/a4（需从最内层开始）	`rmdir a1/a2/a3/a4 a1/a2/a3 a1/a2 a1`
查看当前目录下的目录数	`ls -l

（2）文件操作命令

5. `cp`：复制文件或目录

功能	命令
复制 `.bashrc` 到 `/usr/bashrc1`	`cp ~/.bashrc /usr/bashrc1`
创建 `/tmp/test` 并复制其内容到 `/usr`	`mkdir /tmp/test && cp -r /tmp/test /usr/`

6. `mv`：移动或重命名

功能	命令
移动 `bashrc1` 到 `/usr/test/`	`mv /usr/bashrc1 /usr/test/`
重命名 `test` 为 `test2`	`mv /usr/test /usr/test2`

7. `rm`：删除文件或目录

功能	命令
删除 `/usr/test2/bashrc1`	`rm /usr/test2/bashrc1`
删除整个 `test2` 目录	`rm -r /usr/test2`

（3）文件内容查看命令

8. `cat`：查看文件内容（正序）

bash 复制代码

cat ~/.bashrc

9. `tac`：查看文件内容（反序）

bash 复制代码

tac ~/.bashrc

10. `more`：分页显示

bash 复制代码

more ~/.bashrc

11. `head`：显示前几行

功能	命令
显示前 20 行	`head -n 20 ~/.bashrc`
只显示前几行，不显示最后 50 行	`head -n -50 ~/.bashrc`（需要新版本支持）

12. `tail`：显示后几行

功能	命令
显示最后 20 行	`tail -n 20 ~/.bashrc`
显示从第 51 行开始的内容	`tail -n +51 ~/.bashrc`

（4）文件时间与权限命令

13. `touch`：创建或修改时间

功能	命令
创建 `/tmp/hello` 并查看时间	`touch /tmp/hello && ls -l /tmp/hello`
修改时间为 5 天前	`touch -d "5 days ago" /tmp/hello`

14. `chown`：修改文件所有者

功能	命令
将 hello 所有者改为 root	`sudo chown root /tmp/hello && ls -l /tmp/hello`

（5）文件查找与打包压缩命令

15. `find`：查找文件

bash 复制代码

find ~ -name ".bashrc"

16. `tar`：打包与解压

功能	命令
在 `/` 下打包 `test` 为 `test.tar.gz`	`cd / && tar -czvf test.tar.gz test/`
解压到 `/tmp/`	`tar -xzvf /test.tar.gz -C /tmp/`

（6）文本查找与环境变量命令

17. `grep`：查找字符串

bash 复制代码

grep 'examples' ~/.bashrc

18. 环境变量配置

（1）配置 Java 环境变量

编辑 ~/.bashrc 文件，加入以下内容：

bash 复制代码

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$JAVA_HOME/bin:$PATH

使其生效：

bash 复制代码

source ~/.bashrc

（2）查看变量值

bash 复制代码

echo $JAVA_HOME

五、常用的hadoop操作

假设你的 Hadoop 安装在 /usr/local/hadoop，用户是 hadoop。

1. 启动 Hadoop 并创建用户目录 `/user/hadoop`

登录 hadoop 用户（如果还未登录）：

su - hadoop

进入 Hadoop 安装目录并启动集群：

cd /usr/local/hadoop ./sbin/start-dfs.sh ./sbin/start-yarn.sh

查看 HDFS 是否正常运行（可选）：

jps

应该看到 NameNode、DataNode、ResourceManager、NodeManager 等进程。

在 HDFS 中为 hadoop 用户创建目录：

hdfs dfs -mkdir -p /user/hadoop

查看创建结果：

hdfs dfs -ls /user

2. 在 `/user/hadoop` 下创建 `test` 文件夹并查看

hdfs dfs -mkdir /user/hadoop/test hdfs dfs -ls /user/hadoop

输出结果应显示 /user/hadoop/test 文件夹存在。

3. 上传 `.bashrc` 文件到 HDFS 的 test 文件夹中

hdfs dfs -put ~/.bashrc /user/hadoop/test/

然后查看上传结果：

hdfs dfs -ls /user/hadoop/test

你会看到 .bashrc 文件出现在该目录下。

4. 将 HDFS 的 `test` 文件夹复制到本地 `/usr/local/hadoop` 目录下

hdfs dfs -get /user/hadoop/test /usr/local/hadoop/

然后可以用 ls 查看是否成功下载：

ls /usr/local/hadoop/test

应该能看到 .bashrc 文件。

5. 总结命令列表

操作	命令
启动 Hadoop	`./sbin/start-dfs.sh && ./sbin/start-yarn.sh`
创建 HDFS 用户目录	`hdfs dfs -mkdir -p /user/hadoop`
创建子目录 `test`	`hdfs dfs -mkdir /user/hadoop/test`
上传 `.bashrc`	`hdfs dfs -put ~/.bashrc /user/hadoop/test`
查看 HDFS 目录内容	`hdfs dfs -ls /user/hadoop/test`
下载 `test` 到本地	`hdfs dfs -get /user/hadoop/test /usr/local/hadoop/`

本篇介绍了大数据处理架构------hadoop， Hadoop 是一个开源的分布式计算框架，由 Apache 基金会开发，用于处理海量数据，具备高可靠性、高扩展性和高容错性。

大数据（2） 大数据处理架构Hadoop

一、Hadoop简介

1.定义

2.特性

二、hadoop生态系统

三、HDFS启动停止命令

四、常见的linux命令

（1）目录操作命令

1. cd：切换目录

2. ls：查看文件与目录

3. mkdir：新建目录

4. rmdir：删除空目录

（2）文件操作命令

5. cp：复制文件或目录

6. mv：移动或重命名

7. rm：删除文件或目录

（3）文件内容查看命令

8. cat：查看文件内容（正序）

9. tac：查看文件内容（反序）

10. more：分页显示

11. head：显示前几行

12. tail：显示后几行

13. touch：创建或修改时间

14. chown：修改文件所有者

（5）文件查找与打包压缩命令

15. find：查找文件

16. tar：打包与解压

（6）文本查找与环境变量命令

17. grep：查找字符串

18. 环境变量配置

（1）配置 Java 环境变量

（2）查看变量值

1. 启动 Hadoop 并创建用户目录 /user/hadoop

2. 在 /user/hadoop 下创建 test 文件夹并查看

3. 上传 .bashrc 文件到 HDFS 的 test 文件夹中

4. 将 HDFS 的 test 文件夹复制到本地 /usr/local/hadoop 目录下

5. 总结命令列表

大数据（2）大数据处理架构Hadoop

1. `cd`：切换目录

2. `ls`：查看文件与目录

3. `mkdir`：新建目录

4. `rmdir`：删除空目录

5. `cp`：复制文件或目录

6. `mv`：移动或重命名

7. `rm`：删除文件或目录

8. `cat`：查看文件内容（正序）

9. `tac`：查看文件内容（反序）

10. `more`：分页显示

11. `head`：显示前几行

12. `tail`：显示后几行

13. `touch`：创建或修改时间

14. `chown`：修改文件所有者

15. `find`：查找文件

16. `tar`：打包与解压

17. `grep`：查找字符串

1. 启动 Hadoop 并创建用户目录 `/user/hadoop`

2. 在 `/user/hadoop` 下创建 `test` 文件夹并查看

3. 上传 `.bashrc` 文件到 HDFS 的 test 文件夹中

4. 将 HDFS 的 `test` 文件夹复制到本地 `/usr/local/hadoop` 目录下