Hadoop初体验

一、HDFS初体验

1. shell命令操作

hadoop fs -mkdir /itcast

hadoop fs -put zookeeper.out /itcast

hadoop fs -ls /

2. Web UI页面操作

结论:

  1. HDFS本质就是一个文件系统
  2. 有目录树结构 和Linux类似,分文件、文件夹
  3. 为什么上传一个小文件也这么慢?

二、MapReduce +YARN初体验

执行Hadoop官方自带的MapReduce案例

评估圆周率π的值

cd /export/server/hadoop-3.1.4/share/hadoop/mapreduce/

hadoop jar hadoop-mapreduce-examples-3.1.4.jar pi 2 4

思考:

  1. MapReduce本质是程序?
  2. 执行MapReduce的时候,为什么首先请求YARN?
  3. MapReduce看上去好像是两个阶段?
  4. 先Map,再Reduce?
  5. 处理小数据的时候,MapReduce速度快吗?
相关推荐
哈哈la5 分钟前
spark和hadoop的区别
大数据·hadoop·spark
CONTONUE17 分钟前
spark和Hadoop的区别和联系
hadoop·spark
IT成长日记20 分钟前
【Hive入门】Hive架构与组件深度解析:从核心组件到生态协同
hive·hadoop·架构·架构与组件
FLLdsj39 分钟前
如何安装Spark
大数据·分布式·spark
AEMC马广川3 小时前
关于综合能源服务认证证书的全解析专业认证团队
java·大数据·服务器·能源
黄雪超4 小时前
Flink介绍——实时计算核心论文之MillWheel论文总结
大数据·flink·论文笔记
lilye665 小时前
精益数据分析(10/126):深度剖析数据指标,驱动创业决策
大数据·人工智能·数据分析
Acrelgq236 小时前
工厂能耗系统智能化解决方案 —— 安科瑞企业能源管控平台
大数据·人工智能·物联网
D愿你归来仍是少年9 小时前
使用 PySpark 批量清理 Hive 表历史分区
大数据·数据仓库·hive·spark
End9289 小时前
Hadoop的三大结构及其作用?
大数据·hadoop·分布式