MapReduce学习问题记录

1、如何跳过对某行数据的处理

第一行数据是字段名不需要处理,我们知道第一行偏移量是0(行记录的时候是从数组首地址开始,到了行标识符进行一次计数,这个计数就是行偏移量,从0开始),我们根据偏移量值进行判断,然后用中断方法把第一行数据跳过。

java 复制代码
// 根据偏移量把第一行筛选出来:
        if (0== key.get()){
            return; // 中断方法:即不对符合条件的数据进行处理,也就是跳过这些数据不做处理
        }

2、接下来是对需求数据的Map处理

java 复制代码
String[] line = value.toString().replaceAll("\"","").split(",");
        //对可能数组越界的字符串数据过滤:用判断把长度不符合的数组剔除
        if (11== line.length){
            //对符合要求的数据开始写出:格式---K:省市年月日(拼接),V:温度
            StringBuilder outKey = new StringBuilder();
            outKey.append(line[1]).append(line[2])
                                  .append(DateTimeFormatter.ofPattern("yyyyMMdd")
                                  .format(LocalDateTime.parse(line[9], DateTimeFormatter.ofPattern("d/M/yyyy HH:mm:ss"))));
            context.write(new Text(outKey.toString()),new IntWritable(Integer.parseInt(line[5])));
        }

3、接下来是reduce处理逻辑

根据业务需求写出数据

java 复制代码
package com.yjxxt.Weather;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * Reducer中四个泛型解释
 * KEYIN: MapTask写出数据的key:地区年月日
 * VALUEIN:MapTask写出数据的value  温度(N条,因为记录了每天不同时刻的温度)
 * KEYOUT: Reducetask写出数据的key 地区年月日
 * VALUEOUT: Reducetask写出数据的value 温度最值
 */
public class WeatherReducer extends Reducer <Text, IntWritable, Text, Text>{
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //这里的VALUEOUT是要最高温和最低温,所以reduce要把拉取过来的温度进行比较(从map-->reduce:数据是1:N模型)
        int max=-100,min=100;
        //用比较函数找到最值
        for (IntWritable value:values
             ) {
            max = Math.max(max, value.get());
            min = Math.min(max, value.get());
        }
        //将最终结果写出去:VALUEOUT也写成文本形式
        context.write(key,new Text("最高温度["+max+"]最低温度["+min+"]"));
    }
}
相关推荐
西岸行者5 小时前
学习笔记:SKILLS 能帮助更好的vibe coding
笔记·学习
悠哉悠哉愿意6 小时前
【单片机学习笔记】串口、超声波、NE555的同时使用
笔记·单片机·学习
别催小唐敲代码7 小时前
嵌入式学习路线
学习
毛小茛9 小时前
计算机系统概论——校验码
学习
babe小鑫9 小时前
大专经济信息管理专业学习数据分析的必要性
学习·数据挖掘·数据分析
winfreedoms10 小时前
ROS2知识大白话
笔记·学习·ros2
在这habit之下10 小时前
Linux Virtual Server(LVS)学习总结
linux·学习·lvs
我想我不够好。10 小时前
2026.2.25监控学习
学习
im_AMBER10 小时前
Leetcode 127 删除有序数组中的重复项 | 删除有序数组中的重复项 II
数据结构·学习·算法·leetcode
CodeJourney_J10 小时前
从“Hello World“ 开始 C++
c语言·c++·学习