hdfs中的小知识（hadoop hdfs hive）

longjunj2024-05-14 7:07

FileinputFormat切片机制

（1）简单地按照文件的内容长度进行切片

（2）切片大小，默认等于block大小

（3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

自定义InputFormat流程

（1）自定义一个类继承FileInputFormat

（2）改写RecordReader ，实现一次读取一个完整文件封装为KV

如何决定一个job的map和reduce的数量？

1）map数量 splitSize=max{minSize,min{maxSize,blockSize}}

map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2）reduce数量 reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1

*** inputformat 是在mapreduce中产生的

上一篇：webpack5以下的项目，前端引入node的path模块需要额外配置

下一篇：hdfs 中 Map Tas工作机制（Hadoop，hive，hdfs）

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02GitHub 镜像站点 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05jdk21下载、安装（Windows、Linux、macOS）06GitLab 零基础入门指南：从安装到项目管理全流程 07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 08KGG转MP3工具|非KGM文件|解密音频 09安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）10Labelme从安装到标注：零基础完整指南