hdfs中的小知识(hadoop hdfs hive)

FileinputFormat切片机制

(1)简单地按照文件的内容长度进行切片

(2)切片大小 ,默认等于block大小

(3)切片时不考虑数据集整体 ,而是逐个针对每一个文件单独切片

自定义InputFormat流程

(1)自定义一个类继承FileInputFormat

(2)改写RecordReader ,实现一次读取一个完整文件封装为KV

如何决定一个job的map和reduce的数量?

1)map数量 splitSize=max{minSize,min{maxSize,blockSize}}

map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2)reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1

*** inputformat 是在mapreduce中产生的

相关推荐
zhixingheyi_tian1 小时前
Hadoop 之 ENV
大数据·hadoop·分布式
小鹿学程序1 小时前
任务一- 2.子任务二:Hadoop完全分布式安装配置
大数据·hadoop·分布式
yumgpkpm16 小时前
Iceberg在Cloudera CDP集群详细操作步骤
大数据·人工智能·hive·zookeeper·spark·开源·cloudera
yumgpkpm19 小时前
Iceberg在Hadoop集群使用步骤(适配AI大模型)
大数据·hadoop·分布式·华为·zookeeper·开源·cloudera
清平乐的技术专栏1 天前
Hive SQL中COALESCE 函数和NVL()函数、IFNULL函数区别
hive·hadoop·sql
爱吃大芒果1 天前
Flutter 列表优化:ListView 性能调优与复杂列表实现
开发语言·hive·hadoop·flutter·华为
Yore Yuen1 天前
Hive内表修改字段类型及注意事项
数据仓库·hive·hadoop
梦里不知身是客111 天前
yarn向hive提交队列的方式
数据仓库·hive·hadoop
Direction_Wind1 天前
Iceberg 与 Hive 用法区别
数据仓库·hive·hadoop
本旺1 天前
【Starrocks + Hive 】BitMap + 物化视图 实战记录
大数据·数据仓库·hive