MapReduce框架原理解析三：OutputFormat

在 MapReduce 框架中，数据如何被写入到文件系统，是由 OutputFormat 组件决定的。它是 MapReduce 数据处理流水线的最后一环，负责将 Reduce 阶段（或 Map 阶段，如果没有 Reduce）产生的结果数据，按照指定的格式和路径写入到HDFS或其他存储系统中。

本篇我们将深入探讨 OutputFormat 的工作原理，并学习如何根据业务需求自定义 OutputFormat。

Hadoop 相关知识与文章参考：

1. OutputFormat概述

OutputFormat 是一个接口，它定义了 MapReduce 作业输出的规范。所有 MapReduce 的输出都通过实现这个接口来完成。它主要有两个核心职责：

验证输出目录：在作业开始前，检查输出路径是否已经存在，如果存在则抛出异常，防止覆盖已有数据。
创建 RecordWriter：RecordWriter是真正负责将数据写入文件的对象。OutputFormat 会创建一个RecordWriter实例，供任务（Task）使用。

2. 常见实现类

2.1. 默认实现类

Hadoop 默认使用的 OutputFormat 是TextOutputFormat。它的工作方式非常直观：

它将每个键值对（Key/Value Pair）作为一行文本写入文件。
键和值会通过各自的toString()方法转换为字符串。
默认情况下，键和值之间用一个制表符（\t）分隔。

例如，如果你的 Reducer 输出了一个键值对<"hello", 5>，那么在输出文件中，这一行的内容就会是hello 5（注意键值中间使用 \t 分隔）。

2.2. 其他实现类

除了TextOutputFormat，Hadoop还提供了多种内置的OutputFormat实现，以适应不同的场景：

SequenceFileOutputFormat：将输出写入为紧凑的、可压缩的二进制格式文件（SequenceFile）。这种格式非常适合作为另一个MapReduce 作业的输入，因为它读写效率高。
NullOutputFormat：顾名思义，它会忽略所有输出数据，不生成任何文件。这在某些只需要执行计算而不需要保存结果的场景中非常有用。
DBOutputFormat：用于将 MapReduce 作业的输出结果直接写入关系型数据库（如MySQL、Oracle）中。

3. 自定义OutputFormat

在实际开发中，默认的TextOutputFormat往往无法满足复杂的业务需求。例如，你可能需要根据数据内容将结果输出到不同的文件中。这时，我们就需要自定义 OutputFormat。

需求：假设有一个日志处理任务，需要将包含 alarm 关键词的日志行写入文件 alarm.log 中，而将其他不包含关键词的日志写入到 other.log 文件中。

当前示例中，Mapper 和 Reducer 没有具体逻辑，所以可以省略，即使用默认。
实现自定义类 DefOutputFormat。

Java 复制代码

package com.example.hadoop.mapreduce.defoutputformat;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
* @Description TODO
*/
public class DefOutputFormat extends FileOutputFormat<LongWritable, Text> {
    @Override
    public RecordWriter<LongWritable, Text> getRecordWriter(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        //创建RecordWrite，并返回
        DefRecordWriter writer = new DefRecordWriter();
        writer.initialize(taskAttemptContext);
        return writer;
    }
}

编写 DefRecordWriter 类。

Java 复制代码

package com.example.hadoop.mapreduce.defoutputformat;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.nio.charset.StandardCharsets;

/**
* @Description TODO
*/
public class DefRecordWriter extends RecordWriter<LongWritable, Text> {

    private FSDataOutputStream alarm;
    private FSDataOutputStream other;

    public void initialize(TaskAttemptContext job) {
        //1.获取配置对象
        Configuration configuration = job.getConfiguration();
        try {
            //2.通过配置获取文件系统
            FileSystem fileSystem = FileSystem.get(configuration);
            //3.获取输出目录
            String outDir = configuration.get(FileOutputFormat.OUTDIR);
            //4.赋值
            alarm = fileSystem.create(new Path(outDir + "/alarm.log"));
            other = fileSystem.create(new Path(outDir + "/other.log"));
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    @Override
    public void write(LongWritable longWritable, Text text) throws IOException, InterruptedException {
        //获取数据
        String line = text.toString();
        //判断是否包含alarm
        if (line.contains("alarm")) {
            alarm.write((line + "\r\n").getBytes(StandardCharsets.UTF_8));
        } else {
            other.write((line + "\r\n").getBytes(StandardCharsets.UTF_8));
        }
    }

    @Override
    public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {
        IOUtils.closeStream(alarm);
        IOUtils.closeStream(other);
    }
}

编写 Driver 类。

Java 复制代码

package com.example.hadoop.mapreduce.defoutputformat;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * @Description TODO
 */
public class DefDriver {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        Job job = Job.getInstance(new Configuration());
        job.setJarByClass(DefDriver.class);

        // 设置自定义OutputFormat
        job.setOutputFormatClass(DefOutputFormat.class);

        FileInputFormat.setInputPaths(job, new Path("d:/input/*"));
        FileOutputFormat.setOutputPath(job, new Path("d:/output"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }
}

4. 总结

通过对 OutputFormat 的解析，我们完整地走完了 MapReduce 数据处理流程的"最后一公里"。作为数据输出的守门人，OutputFormat 不仅决定了结果数据的最终形态，更通过灵活的扩展机制，为应对复杂的业务场景提供了无限可能。

自定义 OutputFormat 的核心在于理解RecordWriter的职责------它不仅是数据的写入者，更是业务规则的最终执行者。通过将分流逻辑封装在write()方法中，我们实现了数据处理的精准控制，这种"一次处理，多路输出"的模式，在实际工程中有着广泛的应用价值。

掌握 OutputFormat 的原理与定制方法，意味着我们真正拥有了对 MapReduce 输出环节的完全掌控力。无论是格式化输出、多路分发，还是与外部系统集成，都可以通过自定义 OutputFormat 优雅地实现。这正是 MapReduce 架生命力的体现------在标准化的流程中，为个性化需求留出了充足的创新空间。