Hadoop初体验

一、HDFS初体验

1. shell命令操作

hadoop fs -mkdir /itcast

hadoop fs -put zookeeper.out /itcast

hadoop fs -ls /

2. Web UI页面操作

结论:

  1. HDFS本质就是一个文件系统
  2. 有目录树结构 和Linux类似,分文件、文件夹
  3. 为什么上传一个小文件也这么慢?

二、MapReduce +YARN初体验

执行Hadoop官方自带的MapReduce案例

评估圆周率π的值

cd /export/server/hadoop-3.1.4/share/hadoop/mapreduce/

hadoop jar hadoop-mapreduce-examples-3.1.4.jar pi 2 4

思考:

  1. MapReduce本质是程序?
  2. 执行MapReduce的时候,为什么首先请求YARN?
  3. MapReduce看上去好像是两个阶段?
  4. 先Map,再Reduce?
  5. 处理小数据的时候,MapReduce速度快吗?
相关推荐
大数据张老师1 小时前
用 AI 做数据分析:从“数字”里挖“规律”
大数据·人工智能
博闻录3 小时前
以 “有机” 重构增长:云集从电商平台到健康生活社区的跃迁
大数据·重构·生活
nbsaas-boot4 小时前
收银系统优惠功能架构:可扩展设计指南(含可扩展性思路与落地细节)
java·大数据·运维
码字的字节5 小时前
深入解析YARN中的FairScheduler与CapacityScheduler:资源分配策略的核心区别
hadoop·capacity·fairscheduler
lingling0095 小时前
实验记录安全存储:生物医药科研的数字化基石
大数据·人工智能
Johny_Zhao5 小时前
Centos8搭建hadoop高可用集群
linux·hadoop·python·网络安全·信息安全·云计算·shell·yum源·系统运维·itsm
优秘智能UMI6 小时前
私有化大模型架构解决方案构建指南
大数据·人工智能·深度学习·信息可视化·aigc
TDengine (老段)16 小时前
TDengine 转化类函数 TO_CHAR 用户手册
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
黄雪超16 小时前
Kafka——多线程开发消费者实例
大数据·分布式·kafka