hdfs中的小知识(hadoop hdfs hive)

FileinputFormat切片机制

(1)简单地按照文件的内容长度进行切片

(2)切片大小 ,默认等于block大小

(3)切片时不考虑数据集整体 ,而是逐个针对每一个文件单独切片

自定义InputFormat流程

(1)自定义一个类继承FileInputFormat

(2)改写RecordReader ,实现一次读取一个完整文件封装为KV

如何决定一个job的map和reduce的数量?

1)map数量 splitSize=max{minSize,min{maxSize,blockSize}}

map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2)reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1

*** inputformat 是在mapreduce中产生的

相关推荐
YJlio10 小时前
1 4.1 微软商店的使用(Microsoft Store:下载/安装/管理应用与游戏)
运维·hive·hadoop·windows·游戏·microsoft·计算机外设
看海的四叔10 小时前
【SQL】SQL的日期与时间函数
数据库·hive·sql·数据分析·时间函数·日期函数
看海的四叔10 小时前
【SQL】SQL-常见窗口函数有哪些-上篇
数据库·hive·sql·mysql·数据分析·窗口函数
sunxunyong21 小时前
kyuubi 连接kerberos集群配置
hadoop
坚持就完事了1 天前
Hadoop实战初步学习
hadoop·学习
It's Q1 天前
hive学习分区&&函数
hive·hadoop·学习
隐于花海,等待花开1 天前
5.TRIM / LTRIM / RTRIM 函数深度解析
大数据·hive
lifewange2 天前
Hadoop 全套常用 Shell 命令完整版
大数据·hadoop·npm
lifewange2 天前
Hadoop 完整入门详解
大数据·hadoop·分布式
菜鸟小码2 天前
Hive数据模型、架构、表类型与优化策略
hive·hadoop·架构