MapReduce学习问题记录

1、如何跳过对某行数据的处理

第一行数据是字段名不需要处理,我们知道第一行偏移量是0(行记录的时候是从数组首地址开始,到了行标识符进行一次计数,这个计数就是行偏移量,从0开始),我们根据偏移量值进行判断,然后用中断方法把第一行数据跳过。

java 复制代码
// 根据偏移量把第一行筛选出来:
        if (0== key.get()){
            return; // 中断方法:即不对符合条件的数据进行处理,也就是跳过这些数据不做处理
        }

2、接下来是对需求数据的Map处理

java 复制代码
String[] line = value.toString().replaceAll("\"","").split(",");
        //对可能数组越界的字符串数据过滤:用判断把长度不符合的数组剔除
        if (11== line.length){
            //对符合要求的数据开始写出:格式---K:省市年月日(拼接),V:温度
            StringBuilder outKey = new StringBuilder();
            outKey.append(line[1]).append(line[2])
                                  .append(DateTimeFormatter.ofPattern("yyyyMMdd")
                                  .format(LocalDateTime.parse(line[9], DateTimeFormatter.ofPattern("d/M/yyyy HH:mm:ss"))));
            context.write(new Text(outKey.toString()),new IntWritable(Integer.parseInt(line[5])));
        }

3、接下来是reduce处理逻辑

根据业务需求写出数据

java 复制代码
package com.yjxxt.Weather;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * Reducer中四个泛型解释
 * KEYIN: MapTask写出数据的key:地区年月日
 * VALUEIN:MapTask写出数据的value  温度(N条,因为记录了每天不同时刻的温度)
 * KEYOUT: Reducetask写出数据的key 地区年月日
 * VALUEOUT: Reducetask写出数据的value 温度最值
 */
public class WeatherReducer extends Reducer <Text, IntWritable, Text, Text>{
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //这里的VALUEOUT是要最高温和最低温,所以reduce要把拉取过来的温度进行比较(从map-->reduce:数据是1:N模型)
        int max=-100,min=100;
        //用比较函数找到最值
        for (IntWritable value:values
             ) {
            max = Math.max(max, value.get());
            min = Math.min(max, value.get());
        }
        //将最终结果写出去:VALUEOUT也写成文本形式
        context.write(key,new Text("最高温度["+max+"]最低温度["+min+"]"));
    }
}
相关推荐
旖旎夜光4 小时前
多态(11)(下)
c++·学习
全栈陈序员6 小时前
【Python】基础语法入门(十七)——文件操作与数据持久化:安全读写本地数据
开发语言·人工智能·python·学习
啄缘之间6 小时前
11. UVM Test [uvm_test]
经验分享·笔记·学习·uvm·总结
RisunJan6 小时前
【行测】类比推理-自称他称全同
学习
石像鬼₧魂石7 小时前
Termux ↔ Windows 靶机 反向连接实操命令清单
linux·windows·学习
非凡ghost7 小时前
JRiver Media Center(媒体管理软件)
android·学习·智能手机·媒体·软件需求
hssfscv8 小时前
Mysql学习笔记——事务
笔记·学习·mysql
charlie1145141918 小时前
现代C++工程实践:简单的IniParser3——改进我们的split
开发语言·c++·笔记·学习
思成不止于此10 小时前
【MySQL 零基础入门】MySQL 函数精讲(二):日期函数与流程控制函数篇
android·数据库·笔记·sql·学习·mysql
知识分享小能手10 小时前
CentOS Stream 9入门学习教程,从入门到精通,CentOS Stream 9 中 Linux C 编程 —语法详解与实战案例(13)
linux·学习·centos