Hadoop初体验

一、HDFS初体验

1. shell命令操作

hadoop fs -mkdir /itcast

hadoop fs -put zookeeper.out /itcast

hadoop fs -ls /

2. Web UI页面操作

结论:

  1. HDFS本质就是一个文件系统
  2. 有目录树结构 和Linux类似,分文件、文件夹
  3. 为什么上传一个小文件也这么慢?

二、MapReduce +YARN初体验

执行Hadoop官方自带的MapReduce案例

评估圆周率π的值

cd /export/server/hadoop-3.1.4/share/hadoop/mapreduce/

hadoop jar hadoop-mapreduce-examples-3.1.4.jar pi 2 4

思考:

  1. MapReduce本质是程序?
  2. 执行MapReduce的时候,为什么首先请求YARN?
  3. MapReduce看上去好像是两个阶段?
  4. 先Map,再Reduce?
  5. 处理小数据的时候,MapReduce速度快吗?
相关推荐
Jonathan Star7 分钟前
嵌套 Git 仓库(Submodule/子模块)
大数据·git·elasticsearch
TDengine (老段)2 小时前
从“数据堆场”到“智能底座”:TDengine IDMP如何统一数据语言
大数据·数据库·物联网·时序数据库·tdengine
liuyunshengsir2 小时前
让 Elasticsearch Delete By Query 请求立即生效
大数据·elasticsearch·jenkins
武子康2 小时前
大数据-148 Flink 写入 Kudu 实战:自定义 Sink 全流程(Flink 1.11/Kudu 1.17/Java 11)
大数据·后端·nosql
ZEERO~2 小时前
夏普比率和最大回撤公式推导及代码实现
大数据·人工智能·机器学习·金融
TTBIGDATA2 小时前
【Ambari开启Kerberos】Step1-KDC服务初始化安装-适合Ubuntu
运维·数据仓库·hadoop·ubuntu·ambari·hdp·bigtop
培培说证3 小时前
中专生做电商客服,能转电商运营吗?需要学习什么?
大数据·职场和发展
码界奇点3 小时前
时序数据库选型指南从大数据视角看IoTDB的核心优势
大数据·时序数据库·iotdb
数据超市3 小时前
快速CAD转到PPT的方法,带教程
大数据·python·科技·信息可视化·数据挖掘
TDengine (老段)4 小时前
从细胞工厂到智能制造:Extracellular 用 TDengine 打通数据生命线
java·大数据·数据库·科技·制造·时序数据库·tdengine