Hadoop初体验

一、HDFS初体验

1. shell命令操作

hadoop fs -mkdir /itcast

hadoop fs -put zookeeper.out /itcast

hadoop fs -ls /

2. Web UI页面操作

结论:

  1. HDFS本质就是一个文件系统
  2. 有目录树结构 和Linux类似,分文件、文件夹
  3. 为什么上传一个小文件也这么慢?

二、MapReduce +YARN初体验

执行Hadoop官方自带的MapReduce案例

评估圆周率π的值

cd /export/server/hadoop-3.1.4/share/hadoop/mapreduce/

hadoop jar hadoop-mapreduce-examples-3.1.4.jar pi 2 4

思考:

  1. MapReduce本质是程序?
  2. 执行MapReduce的时候,为什么首先请求YARN?
  3. MapReduce看上去好像是两个阶段?
  4. 先Map,再Reduce?
  5. 处理小数据的时候,MapReduce速度快吗?
相关推荐
weixin_307779133 分钟前
PySpark实现GROUP BY WITH CUBE和WITH ROLLUP的分类汇总功能
大数据·开发语言·python·spark
平凡君36 分钟前
ElasticSearch查询指南:从青铜到王者的骚操作
大数据·elasticsearch·搜索引擎
chimchim662 小时前
hive开窗函数边界值ROWS BETWEEN 和 RANGE BETWEEN区别
数据仓库·hive·hadoop
千叶真尹2 小时前
通过Hive小文件合并(CombineHiveInputFormat)减少80%的Map任务数
数据仓库·hive·hadoop
Dolphin_Home2 小时前
搭建 Hadoop 3.3.6 伪分布式
大数据·hadoop·分布式
Yvonne9783 小时前
Hadoop HDFS基准测试
大数据·hadoop·hdfs
m0_748247554 小时前
重学SpringBoot3-整合 Elasticsearch 8.x (二)使用Repository
大数据·elasticsearch·jenkins
南宫文凯5 小时前
Hadoop-HA(高可用)机制
大数据·hadoop·分布式·hadoop-ha
乐享数科5 小时前
乐享数科:供应链金融—三个不同阶段的融资模式
大数据·人工智能·金融