hadoop reduce阶段 对象重用问题

问题根源:对象重用

Hadoop 为了优化性能,在 reduce 方法中会重用 keyvalue 对象。

这意味着,在 for(Person p : values) 循环中,变量 p 始终指向同一个 Person 对象实例。

框架在每次迭代时,会用新的数据覆盖 这个 Person 对象的内部属性,而不是创建一个新的对象。

因此,当你执行 plist.add(p) 时,你只是将同一个对象的引用 多次添加到了列表 plist 中。

最终,plist 里所有的元素都指向内存中的同一个 Person 对象,而这个对象的值是最后一次迭代时被覆盖的结果。

错误代码示例

假设 values 中包含三个 Person 对象,其 name 属性分别为 "Alice"、"Bob" 和 "Charlie"。

复制代码
List<Person> plist = new ArrayList<>();
for(Person p : values){
    plist.add(p);
}

执行后,plist 的内容将不是 ["Alice", "Bob", "Charlie"]。相反,plist 中会包含三个指向同一个对象 的引用,而这个对象的 name 属性是 "Charlie" 。所以,遍历 plist 会得到 ["Charlie", "Charlie", "Charlie"]

正确的解决方案

你需要创建一个新的 Person 对象副本,然后将副本添加到列表中。这样,列表中的每个元素都是一个独立的对象。

方法一:手动创建新对象并复制属性

这是最直接的方法,适用于所有情况。

复制代码
List<Person> plist = new ArrayList<>();
for(Person p : values){
    // 创建一个新的Person对象
    Person newPerson = new Person();
    // 手动复制所有需要的属性
    newPerson.setName(p.getName());
    newPerson.setAge(p.getAge());
    // ... 复制其他属性
    // 将新对象的引用添加到列表中
    plist.add(newPerson);
}
方法二:使用工具类复制属性

如果你的 Person 类有很多属性,可以使用像 Apache Commons BeanUtils 这样的工具类来简化属性复制过程。

复制代码
import org.apache.commons.beanutils.BeanUtils;

List<Person> plist = new ArrayList<>();
for(Person p : values){
    Person newPerson = new Person();
    try {
        // 自动复制所有同名同类型的属性
        BeanUtils.copyProperties(newPerson, p);
    } catch (Exception e) {
        e.printStackTrace();
    }
    plist.add(newPerson);
}
方法三:实现拷贝构造函数

在你的 Person 类中定义一个拷贝构造函数,可以使代码更简洁。

复制代码
public class Person implements Writable {
    private String name;
    private int age;

    // 默认的无参构造函数(Hadoop序列化需要)
    public Person() {}

    // 拷贝构造函数
    public Person(Person other) {
        this.name = other.name;
        this.age = other.age;
    }

    // ... 其他代码 (getter, setter, write, readFields)
}

然后在 reduce 方法中这样使用:

复制代码
List<Person> plist = new ArrayList<>();
for(Person p : values){
    // 使用拷贝构造函数创建副本
    plist.add(new Person(p));
}
相关推荐
@insist1237 小时前
信息安全工程师考点精讲:身份认证核心原理与分类体系(上篇)
大数据·网络·分类·信息安全工程师·软件水平考试
天辛大师7 小时前
AI助力旅游扩大化,五一旅游公园通游年票普惠研究
大数据·启发式算法·旅游
WordPress学习笔记8 小时前
镌刻中式美学的高端WordPress主题
大数据·人工智能·wordpress
数智化精益手记局9 小时前
拆解物料管理erp系统的核心功能,看物料管理erp系统如何解决库存积压与缺料难题
大数据·网络·人工智能·安全·信息可视化·精益工程
Elastic 中国社区官方博客10 小时前
使用 Observability Migration Platform 将 Datadog 和 Grafana 的仪表板与告警迁移到 Kibana
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·grafana·datalog
jkyy201411 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹11 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_9499251811 小时前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
苍煜11 小时前
分布式事务生产实战选型对比
分布式
xiaoduo AI12 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人