hdfs中的小知识(hadoop hdfs hive)

FileinputFormat切片机制

(1)简单地按照文件的内容长度进行切片

(2)切片大小 ,默认等于block大小

(3)切片时不考虑数据集整体 ,而是逐个针对每一个文件单独切片

自定义InputFormat流程

(1)自定义一个类继承FileInputFormat

(2)改写RecordReader ,实现一次读取一个完整文件封装为KV

如何决定一个job的map和reduce的数量?

1)map数量 splitSize=max{minSize,min{maxSize,blockSize}}

map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2)reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1

*** inputformat 是在mapreduce中产生的

相关推荐
迈巴赫车主21 小时前
Hive中分组聚合导致的数据倾斜优化
数据仓库·hive·hadoop
段一凡-华北理工大学21 小时前
工业领域的Hadoop架构学习~系列文章13:数据湖架构 - 工业大数据的统一存储底座
大数据·人工智能·hadoop·分布式·架构·高炉炼铁·高炉智能化
段一凡-华北理工大学21 小时前
工业领域的Hadoop架构学习~系列文章14:Hadoop集群部署 - 从规划到上线的全流程实践
大数据·数据库·人工智能·hadoop·学习·架构·高炉炼铁
暴躁小师兄数据学院1 天前
【AI大数据工程师特训笔记】第16讲:大数据环境安装
大数据·hadoop·笔记·flink·spark·database
段一凡-华北理工大学2 天前
工业领域的Hadoop架构学习~系列文章12:Hadoop集群监控与运维
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
Leo.yuan2 天前
MySQL到Hive数据同步怎么选工具?FineDataLink全链路方案实测
数据库·hive·mysql
Nefu_lyh2 天前
【Hive】02 Hive 分区与分桶:深入理解 Hive 分区与分桶的原理、执行过程、Bucket Map Join、SMB Join 以及最佳实践
数据仓库·hive·hadoop
段一凡-华北理工大学2 天前
工业领域的Hadoop架构学习~系列文章11:Kerberos安全认证
数据仓库·hadoop·学习·架构·高炉炼铁·工业智能体·高炉炼铁智能化
muddjsv2 天前
HBase与Hadoop:基于什么开发?深度剖析与架构图
数据库·hadoop·hbase
muddjsv2 天前
HBase 与 Hadoop 安装与上手使用全指导
数据库·hadoop·hbase