大数据(2) 大数据处理架构Hadoop

一、Hadoop简介

1.定义

Hadoop 是一个开源的分布式计算框架,由 Apache 基金会开发,用于处理海量数据,具备高可靠性、高扩展性和高容错性。它主要由两个核心模块组成:

  • HDFS(Hadoop Distributed File System):分布式文件系统,用于存储大规模数据,具备高容错能力和高吞吐量。

  • MapReduce:分布式计算框架,用于并行处理大数据,通过"映射-归约"模型实现任务分解与执行。

Hadoop 适合运行在廉价硬件集群上,是大数据处理的重要基础平台。

2.特性

  • 高可靠性:通过数据冗余和副本机制,确保在节点故障时数据依然安全可用。

  • 高效性:采用并行计算方式,能够快速处理海量数据,提升计算效率。

  • 高可扩展性:支持通过增加节点来水平扩展系统,轻松应对数据增长。

  • 高容错性:在节点故障时自动切换和恢复任务,确保系统稳定运行。

  • 成本低:可以部署在普通的廉价服务器上,无需高性能硬件,节省成本。

  • 支持运行在 Linux 操作系统上:Hadoop 主要设计为在 Linux 环境下运行,性能稳定、兼容性好。

  • 支持多种编程语言:除 Java 外,还支持 Python、C++ 等语言开发 MapReduce 程序,方便开发者使用。


二、hadoop生态系统

组件 功能简述
HDFS 分布式存储系统
MapReduce 批处理计算框架
YARN 资源管理与任务调度
Hive 数据仓库,支持 SQL 查询
HBase 实时数据库
Pig 脚本式数据处理语言
Sqoop RDBMS 与 Hadoop 间数据迁移
Flume 日志/数据采集工具
Kafka 高吞吐消息队列
Storm 实时流处理框架
Spark 高性能分布式计算框架
Flink 实时数据处理引擎
Oozie 工作流调度工具
Zookeeper 分布式协调服务
Ambari 集群管理与监控工具

三、HDFS启动停止命令

启动:cd /usr/local/hadoop

./sbin/start-dfs.sh

停止:./sbin/stop-dfs.sh


四、常见的linux命令

(1)目录操作命令

1. cd:切换目录

功能 命令
切换到 /usr/local cd /usr/local
返回上层目录 cd ..
回到主文件夹 cd ~cd

2. ls:查看文件与目录

功能 命令
查看 /usr 下所有文件 ls /usrls -l /usr

3. mkdir:新建目录

功能 命令
/tmp 下创建目录 a cd /tmp && mkdir a
查看当前目录有多少子目录 `ls -l
创建多层目录 a1/a2/a3/a4 mkdir -p a1/a2/a3/a4

4. rmdir:删除空目录

功能 命令
删除 /tmp/a 目录 rmdir /tmp/a
依次删除 a1/a2/a3/a4(需从最内层开始) rmdir a1/a2/a3/a4 a1/a2/a3 a1/a2 a1
查看当前目录下的目录数 `ls -l

(2)文件操作命令

5. cp:复制文件或目录

功能 命令
复制 .bashrc/usr/bashrc1 cp ~/.bashrc /usr/bashrc1
创建 /tmp/test 并复制其内容到 /usr mkdir /tmp/test && cp -r /tmp/test /usr/

6. mv:移动或重命名

功能 命令
移动 bashrc1/usr/test/ mv /usr/bashrc1 /usr/test/
重命名 testtest2 mv /usr/test /usr/test2

7. rm:删除文件或目录

功能 命令
删除 /usr/test2/bashrc1 rm /usr/test2/bashrc1
删除整个 test2 目录 rm -r /usr/test2

(3)文件内容查看命令

8. cat:查看文件内容(正序)

bash 复制代码
cat ~/.bashrc

9. tac:查看文件内容(反序)

bash 复制代码
tac ~/.bashrc

10. more:分页显示

bash 复制代码
more ~/.bashrc

11. head:显示前几行

功能 命令
显示前 20 行 head -n 20 ~/.bashrc
只显示前几行,不显示最后 50 行 head -n -50 ~/.bashrc(需要新版本支持)

12. tail:显示后几行

功能 命令
显示最后 20 行 tail -n 20 ~/.bashrc
显示从第 51 行开始的内容 tail -n +51 ~/.bashrc

(4)文件时间与权限命令

13. touch:创建或修改时间

功能 命令
创建 /tmp/hello 并查看时间 touch /tmp/hello && ls -l /tmp/hello
修改时间为 5 天前 touch -d "5 days ago" /tmp/hello

14. chown:修改文件所有者

功能 命令
将 hello 所有者改为 root sudo chown root /tmp/hello && ls -l /tmp/hello

(5)文件查找与打包压缩命令

15. find:查找文件

bash 复制代码
find ~ -name ".bashrc"

16. tar:打包与解压

功能 命令
/ 下打包 testtest.tar.gz cd / && tar -czvf test.tar.gz test/
解压到 /tmp/ tar -xzvf /test.tar.gz -C /tmp/

(6)文本查找与环境变量命令

17. grep:查找字符串

bash 复制代码
grep 'examples' ~/.bashrc

18. 环境变量配置

(1)配置 Java 环境变量

编辑 ~/.bashrc 文件,加入以下内容:

bash 复制代码
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$JAVA_HOME/bin:$PATH

使其生效:

bash 复制代码
source ~/.bashrc
(2)查看变量值
bash 复制代码
echo $JAVA_HOME

五、常用的hadoop操作

假设你的 Hadoop 安装在 /usr/local/hadoop,用户是 hadoop


1. 启动 Hadoop 并创建用户目录 /user/hadoop

  • 登录 hadoop 用户(如果还未登录):

su - hadoop

  • 进入 Hadoop 安装目录并启动集群

cd /usr/local/hadoop ./sbin/start-dfs.sh ./sbin/start-yarn.sh

  • 查看 HDFS 是否正常运行(可选):

jps

应该看到 NameNodeDataNodeResourceManagerNodeManager 等进程。

  • 在 HDFS 中为 hadoop 用户创建目录

hdfs dfs -mkdir -p /user/hadoop

  • 查看创建结果

hdfs dfs -ls /user


2. 在 /user/hadoop 下创建 test 文件夹并查看

hdfs dfs -mkdir /user/hadoop/test hdfs dfs -ls /user/hadoop

输出结果应显示 /user/hadoop/test 文件夹存在。


3. 上传 .bashrc 文件到 HDFS 的 test 文件夹中

hdfs dfs -put ~/.bashrc /user/hadoop/test/

然后查看上传结果:

hdfs dfs -ls /user/hadoop/test

你会看到 .bashrc 文件出现在该目录下。


4. 将 HDFS 的 test 文件夹复制到本地 /usr/local/hadoop 目录下

hdfs dfs -get /user/hadoop/test /usr/local/hadoop/

然后可以用 ls 查看是否成功下载:

ls /usr/local/hadoop/test

应该能看到 .bashrc 文件。


5. 总结命令列表

操作 命令
启动 Hadoop ./sbin/start-dfs.sh && ./sbin/start-yarn.sh
创建 HDFS 用户目录 hdfs dfs -mkdir -p /user/hadoop
创建子目录 test hdfs dfs -mkdir /user/hadoop/test
上传 .bashrc hdfs dfs -put ~/.bashrc /user/hadoop/test
查看 HDFS 目录内容 hdfs dfs -ls /user/hadoop/test
下载 test 到本地 hdfs dfs -get /user/hadoop/test /usr/local/hadoop/

本篇介绍了大数据处理架构------hadoop, Hadoop 是一个开源的分布式计算框架,由 Apache 基金会开发,用于处理海量数据,具备高可靠性、高扩展性和高容错性。

相关推荐
冬至喵喵3 分钟前
【hive】函数集锦:窗口函数、列转行、日期函数
大数据·数据仓库·hive·hadoop
zhuhit6 分钟前
FASTDDS的安全设计
分布式·机器人·嵌入式
暗影八度8 分钟前
Spark流水线+Gravitino+Marquez数据血缘采集
大数据·分布式·spark
执卿18 分钟前
使用Hilt重构项目
架构
SimonKing20 分钟前
吊打面试官系列:Spring为什么不推荐使用字段依赖注入?
java·后端·架构
q567315231 小时前
IBM官网新闻爬虫代码示例
开发语言·分布式·爬虫
知之则吱吱1 小时前
亚马逊AWS云服务器高效使用指南:最大限度降低成本的实战策略
服务器·云计算·aws
不爱学英文的码字机器1 小时前
数据网格的革命:从集中式到分布式的数据管理新范式
分布式
season_zhu1 小时前
Swift:优雅又强大的语法糖——Then库
ios·架构·swift
cui_win1 小时前
每日一令:Linux 极简通关指南 - 汇总
linux·运维·服务器