hdfs中的小知识(hadoop hdfs hive)

FileinputFormat切片机制

(1)简单地按照文件的内容长度进行切片

(2)切片大小 ,默认等于block大小

(3)切片时不考虑数据集整体 ,而是逐个针对每一个文件单独切片

自定义InputFormat流程

(1)自定义一个类继承FileInputFormat

(2)改写RecordReader ,实现一次读取一个完整文件封装为KV

如何决定一个job的map和reduce的数量?

1)map数量 splitSize=max{minSize,min{maxSize,blockSize}}

map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2)reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1

*** inputformat 是在mapreduce中产生的

相关推荐
IT成长日记5 小时前
【Hive入门】Hive与Spark SQL深度集成:通过Spark ThriftServer高效查询Hive表
hive·sql·spark
酷爱码12 小时前
hadoop存储数据文件原理
大数据·hadoop·分布式
IT成长日记14 小时前
【Hive入门】Hive性能调优之资源配置:深入解析执行引擎参数调优
数据仓库·hive·hadoop·资源配置
猪猪果泡酒1 天前
Spark和hadoop的区别与联系
大数据·hadoop·spark
IT成长日记1 天前
【Hive入门】Hive性能调优之Join优化:深入解析MapJoin与Sort-Merge Join策略
数据仓库·hive·hadoop·join优化·mapjoin·sort-merge join
程序员阿龙1 天前
【精选】基于数据挖掘的广州招聘可视化分析系统(大数据组件+Spark+Hive+MySQL+AI智能云+DeepSeek人工智能+深度学习之LSTM算法)
大数据·人工智能·hadoop·数据挖掘·spark·数据分析与可视化·用户兴趣分析
IT成长日记1 天前
【Hive入门】Hive高级特性:视图与物化视图
数据仓库·hive·hadoop·视图与物化视图
hnlucky1 天前
Hadoop 单机模式(Standalone Mode)部署与 WordCount 测试
大数据·数据库·hadoop·分布式·缓存
大只因bug1 天前
基于Hadoop大数据技术音乐推荐系统数据分析与可视化(基于Spark和Hive的音乐推荐系统数据分析与可视化)基于Python的音乐推荐系统数据分析与可视化
大数据·hadoop·python·数据分析·spark·音乐推荐系统数据分析可视化·音乐数据分析可实现推荐系统
IT成长日记2 天前
【Hive入门】Hive性能调优:小文件问题与动态分区合并策略详解
数据仓库·hive·hadoop·动态分区·小文件问题