一、目的

在用Flume采集Kafka中的数据写入HDFS后，发现写入HDFS的不是每天一个文件，而是一个文件夹，里面有很多小文件，浪费namenode的宝贵资源

二、Flume的配置文件优化（参考了其他博文）

在Flume任务的配置文件设置

a1.sinks.k1.hdfs.rollSize = 0

a1.sinks.k1.hdfs.rollCount = 0

而不是

a1.sinks.k1.hdfs.round=true

a1.sinks.k1.hdfs.roundValue=10

a1.sinks.k1.hdfs.roundUnit=minute

将rollSize和rollCount设置为0，表示不根据临时文件大小和event数量来滚动文件（滚动文件即指将HDFS上生成的以.tmp结尾的临时文件转换为实际存储文件）

还有说可以调大rollSize的参数，比如调至102400,表示100KB。滚动文件的单位是byte。

还是在Flume任务的配置文件设置

a1.sinks.k1.hdfs.minBlockReplicas=1

我测试过，本来每5分钟就会有104.54 KB和1.63 KB的两个文件，因为有两个数据源。

在配置文件里加入这个a1.sinks.k1.hdfs.minBlockReplicas=1后，那个小文件1.63 KB就消失了。

所以这个方法还是有效的，但是对我来说就有点问题，就把它给去掉了，还是用方法一

Flume虽然安装简单，但是使用起来却非常不简单，使用过程中需要优化的配置服务很多，需要进一步研究总结！