面试突击:HashMap 源码详解

本文已收录于:https://github.com/danmuking/all-in-one(持续更新)

数据结构

JDK1.8 之前

JDK1.8 之前 HashMap 采用 数组和链表 结合的数据结构。如下图:

HashMap 将 key 的 hashCode 经过扰动函数处理过后得到 hash 值,然后通过(n - 1) & hash判断当前元素存放的位置(n 指的是数组的长度),如果当前位置存在元素的话,就判断该元素与要存入的元素的 hash 值以及 key 是否相同,如果相同的话,直接覆盖,不相同就通过拉链法解决冲突

什么是拉链法?
拉链法就是将链表和数组相结合。也就是说创建一个链表数组,数组中每一格就是一个链表。若遇到哈希冲突,则将冲突的值加到链表中即可。

JDK1.8 之后

在JDK1.8之中,由于考虑到搜索链表的时间复杂度为 O(n),链表过长的话,遍历链表将会花费过长的时间,因此,JDK1.8中,对 HashMap 的数据结构进行了一定的优化。

当满足一定条件时,会将链表转换为红黑树结构(具体细节见下文),搜索红黑树的时间复杂度为 O(logn),这可以为 HashMap 带来一定的性能提升

在 JDK1.8 中,还对 HashMap 中计算 hashcode 的函数进行了优化

JDK 1.8 的 hash 方法 相比于 JDK 1.7 hash 方法更加简化。

java 复制代码
static final int hash(Object key) {
      int h;
      // key.hashCode():返回散列值也就是hashcode
      // ^:按位异或
      // >>>:无符号右移,忽略符号位,空位都以0补齐
      return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
  }

对比一下 JDK1.7 的 HashMap 的 hash 方法源码.

java 复制代码
static int hash(int h) {
    // This function ensures that hashCodes that differ only by
    // constant multiples at each bit position have a bounded
    // number of collisions (approximately 8 at default load factor).

    h ^= (h >>> 20) ^ (h >>> 12);
    return h ^ (h >>> 7) ^ (h >>> 4);
}

JDK1.8 的 hash 扰动次数更少,性能更好。

类图

HashMap 的继承关系很简单,继承于 AbstractMap 并且是实现了 Cloneable 和 Serializable 接口

java 复制代码
public class HashMap<K,V> extends AbstractMap<K,V> 
                implements Map<K,V>, Cloneable, Serializable
  • AbstractMap : 表明它是一个 Map,支持实现 k-v 形式的查询操作
  • Cloneable :表明它具有拷贝能力,可以进行深拷贝或浅拷贝操作。
  • Serializable : 表明它可以进行序列化操作,也就是可以将对象转换为字节流进行持久化存储或网络传输

核心源码解读

重要变量:

java 复制代码
// 默认的初始容量是16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
// 最大容量
static final int MAXIMUM_CAPACITY = 1 << 30;
// 默认的负载因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
// 当桶上的结点数大于等于这个值时会转成红黑树
static final int TREEIFY_THRESHOLD = 8;
// 当桶上的结点数小于等于这个值时树转链表
static final int UNTREEIFY_THRESHOLD = 6;
// 链表转化为红黑树所需的最小数组容量
// 链表转换为红黑树需要MIN_TREEIFY_CAPACITY和TREEIFY_THRESHOLD两个条件同时满足
static final int MIN_TREEIFY_CAPACITY = 64;
// 存储元素的数组,总是2的幂次倍
transient Node<k,v>[] table;
// 存放元素的个数,注意这个不等于数组的长度。
transient int size;
// 阈值(容量*负载因子) 当size超过阈值时,会进行扩容
int threshold;
// 负载因子
final float loadFactor;
loadFactor 负载因子

loadFactor 负载因子是控制 HashMap 中数组存放数据的疏密程度,loadFactor 影响的是单位长度的数组中存放的数据数量,loadFactor 越大,单位长度的数组中存放的元素就越多,反之,loadFactor 越小,单位长度的数组中存放的元素就越少

loadFactor 太大会导致导致查找元素效率低,因为数据密集,平均链表长度更长。

loadFactor 太小导致数组的利用率低,存放的数据会很分散,很多数组位置空闲

loadFactor 的默认值为 0.75f 是官方给出的一个比较好的临界值。

threshold 阈值

threshold = capacity * loadFactor,当size > threshold的时候,就会进行数组扩容。

Node 节点
java 复制代码
// 继承自 Map.Entry<K,V>
static class Node<K,V> implements Map.Entry<K,V> {
       final int hash;// 哈希值,存放元素到hashmap中时用来与其他元素hash值比较
       final K key;//键
       V value;//值
       // 指向下一个节点
       Node<K,V> next;
       Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }
        public final K getKey()        { return key; }
        public final V getValue()      { return value; }
        public final String toString() { return key + "=" + value; }
        // 重写hashCode()方法
        public final int hashCode() {
            return Objects.hashCode(key) ^ Objects.hashCode(value);
        }

        public final V setValue(V newValue) {
            V oldValue = value;
            value = newValue;
            return oldValue;
        }
        // 重写 equals() 方法
        public final boolean equals(Object o) {
            if (o == this)
                return true;
            if (o instanceof Map.Entry) {
                Map.Entry<?,?> e = (Map.Entry<?,?>)o;
                if (Objects.equals(key, e.getKey()) &&
                    Objects.equals(value, e.getValue()))
                    return true;
            }
            return false;
        }
}

初始化

HashMap 中有四个构造方法,其中常用的有三个:

java 复制代码
// 默认构造函数。
public HashMap() {
    // 懒加载,初始化的时候不分配空间。
    this.loadFactor = DEFAULT_LOAD_FACTOR; // all   other fields defaulted
 }

 // 指定初始化容量的构造函数
 public HashMap(int initialCapacity) {
     this(initialCapacity, DEFAULT_LOAD_FACTOR);
 }

 // 指定"容量大小"和"负载因子"的构造函数
 public HashMap(int initialCapacity, float loadFactor) {
     if (initialCapacity < 0)
         throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity);
     // 边界条件处理
     if (initialCapacity > MAXIMUM_CAPACITY)
         initialCapacity = MAXIMUM_CAPACITY;
     if (loadFactor <= 0 || Float.isNaN(loadFactor))
         throw new IllegalArgumentException("Illegal load factor: " + loadFactor);
     this.loadFactor = loadFactor;
     // 初始容量暂时存放到 threshold ,在resize中再赋值给 newCap 进行table初始化
     // tableSizeFor的作用是找到和initialCapacity最接近的2的次幂,
     // 因为 HashMap 的容量一定是2的次幂
     this.threshold = tableSizeFor(initialCapacity);
 }

static final int tableSizeFor(int cap) {
    int n = -1 >>> Integer.numberOfLeadingZeros(cap - 1);
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

HashMap 同样使用懒加载,第一次初始化的时候不分配数组空间,第一次空间分配发生在以第一次调用 put 方法时

put 方法

步骤

向 HashMap 中添加元素需要经过一下步骤:

  1. 计算 key 的 hash 值,并定位到对应的数组位置
  2. 如果定位到的数组位置没有元素 就直接插入。
  3. 如果定位到的数组位置有元素,就和要插入的 key 比较。如果 key 相同就直接覆盖,如果 key 不相同,就需要遍历所有元素,如果找到相同的 key 就覆盖,否则插入到末尾。
java 复制代码
public V put(K key, V value) {
    // 实际调用 putVal 方法
    return putVal(hash(key), key, value, false, true);
}

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    // table未初始化或者长度为0,进行扩容
    // 这里会将 table 赋值给 tab,tab.length 赋值给 n,接下来经常有这种写法
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    // (n - 1) & hash 确定元素存放在哪个桶中,桶为空,新生成结点放入桶中(此时,这个结点是放在数组中)
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    // 桶中已经存在元素(处理hash冲突)
    else {
        Node<K,V> e; K k;
        //快速判断第一个节点table[i]的key是否与插入的key一样,若相同就直接使用插入的值p替换掉旧的值e。
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
        // 判断插入的是否是红黑树节点
        else if (p instanceof TreeNode)
            // 放入树中
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        // 不是红黑树节点则说明为链表结点
        else {
            // 遍历链表,如果在链表中找到相同的key就覆盖,否则添加到尾部
            for (int binCount = 0; ; ++binCount) {
                // 已经到达链表的尾部
                if ((e = p.next) == null) {
                    // 在尾部插入新结点
                    p.next = newNode(hash, key, value, null);
                    // 结点数量达到阈值(默认为 8 ),执行 treeifyBin 方法
                    // 这个方法会根据 HashMap 数组来决定是否转换为红黑树。
                    // 只有当数组长度大于或者等于 64 的情况下,才会执行转换红黑树操作,以减少搜索时间。
                    // 否则,就是只是对数组扩容。
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    // 跳出循环
                    break;
                }
                // 如果找到key相同的节点,结束遍历,接下来将会覆盖旧值
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    // 相等,跳出循环
                    break;
                // 用于遍历桶中的链表,与前面的e = p.next组合,可以遍历链表
                p = e;
            }
        }
        // 表示在桶中找到key值、hash值与插入元素相等的结点
        if (e != null) {
            // 记录e的value
            V oldValue = e.value;
            // onlyIfAbsent为false或者旧值为null
            if (!onlyIfAbsent || oldValue == null)
                //用新值替换旧值
                e.value = value;
            // 访问后回调
            afterNodeAccess(e);
            // 返回旧值
            return oldValue;
        }
    }
    // 结构性修改
    ++modCount;
    // 实际大小大于阈值则扩容
    if (++size > threshold)
        resize();
    // 插入后回调
    afterNodeInsertion(evict);
    return null;
}

get 方法

步骤

从 HashMap 中获取元素的步骤与插入元素的步骤差不多:

  1. 计算 key 对应的 hash 值,计算对应的数组位置
  2. 快速比较对应数组位置的元素是不是要获取的元素,是则返回,不是则遍历对应位置的链表
  3. 遍历链表,如果找到相同的key则返回,否则遍历到最后一个节点返回 null
java 复制代码
public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}

final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {
        // 比较第一个元素是否相等,相等则快速返回
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k))))
            return first;
        // 遍历链表
        if ((e = first.next) != null) {
            // 在树中get
            if (first instanceof TreeNode)
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            // 在链表中get
            do {
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;
}

resize 方法

扩容也是 HashMap 中一个重要的知识点。进行扩容,将会遍历原数组中的所有数据,并重新计算其在新数组中的对应位置,将其转移到新数组中。因此 resize 相当耗时,在程序中需要尽量避免。

很多文章会说在resize的过程中会**重新计算hash的值,这是错误的。**在扩容时将会沿用之前的hash,仅仅重新计算在新数组中的位置。

步骤

resize 的流程很简单,大体来说只有两步:

  1. 创建原数组2倍大小的数组
  2. 将原数组元素移动到新数组
java 复制代码
final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {
        // 超过最大值就不再扩充了,就只好随你碰撞去吧
        if (oldCap >= MAXIMUM_CAPACITY) {
            // 同时将阈值设为最大值,之后就不会再扩容了
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        // 没超过最大值,就扩充为原来的2倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
    // 下面两个条件是初始化 HashMap 时触发
    else if (oldThr > 0) // initial capacity was placed in threshold
        // 创建对象时初始化容量大小放在threshold中,此时只需要将其作为新的数组容量
        newCap = oldThr;
    else {
        // signifies using defaults 无参构造函数创建的对象在这里计算容量和阈值
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {
        // 创建时指定了初始化容量或者负载因子,在这里进行阈值初始化,
    	// 或者扩容前的旧容量小于16,在这里计算新的resize上限
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;
    @SuppressWarnings({"rawtypes","unchecked"})
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;
    if (oldTab != null) {
        // 把每个bucket都移动到新的buckets中
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
                if (e.next == null)
                    // 只有一个节点,直接计算元素新的位置即可
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                    // 将红黑树拆分成2棵子树,如果子树节点数小于等于 UNTREEIFY_THRESHOLD(默认为 6),则将子树转换为链表。
                    // 如果子树节点数大于 UNTREEIFY_THRESHOLD,则保持子树的树结构。
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else {
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
                        // 原索引
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        // 原索引+oldCap
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    // 原索引放到bucket里
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    // 原索引+oldCap放到bucket里
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}
resize 如何计算数据在新数组中位置?
java 复制代码
if ((e.hash & oldCap) == 0) {
    // 。。。
// 原索引+oldCap
else {
    // 。。。
}

为什么可以使用(e.hash & oldCap) == 0来计算数据在新数组中的位置呢?因为在 HashMap 中数组的长度一定是2的次幂(不知道的话请重新阅读上面的内容),并且扩容时新数组大小是旧数组的 2 倍。因此可以通过 hash 是否可以被2整除来决定元素应该放在原下标还是原下标+旧数组长度。代码中使用e.hash & oldCap位运算来加快计算速度,举个简单的例子来理解一下这个运算:

hash 实际上是一个int类型,转换为二进制就是32个bit。假设现在有一个大小为16的HashMap,数组下标范围就是0~15,因此可以使用hash的最后4个bit进行表示:

在扩容后大小变为16*2=32,数组下标范围为0~31,可以使用hash的最后5个bit进行表示:

可以发现,每扩容一次就需要多使用一个bit,而根据多使用的这个bit是0还是1就可以将元素分布到原下标原下标+旧数组长度

点关注,不迷路

好了,以上就是这篇文章的全部内容了,如果你能看到这里,非常感谢你的支持!

如果你觉得这篇文章写的还不错, 求点赞 👍 求关注 ❤️ 求分享 👥 对暖男我来说真的 非常有用!!!

白嫖不好,创作不易,各位的支持和认可,就是我创作的最大动力,我们下篇文章见!

如果本篇博客有任何错误,请批评指教,不胜感激 !
最后推荐我的IM项目DiTinghttps://github.com/danmuking/DiTing-Go),致力于成为一个初学者友好、易于上手的 IM 解决方案,希望能给你的学习、面试带来一点帮助,如果人才你喜欢,给个Star⭐叭!

相关推荐
骄马之死2 小时前
SpringMVC + SpringBoot 核心知识点总结
java·spring boot·后端
GoGeekBaird3 小时前
Anthropic技能"(Skills)的经验分享
后端
王码码20354 小时前
多台服务器怎么统一看状态?Beszel 轻量监控,搭起来不费事
运维·服务器·后端·安全·阿里云·接口·web
郑洁文4 小时前
基于Spring Boot的流浪动物救助网站
java·spring boot·后端·毕设·流浪动物救助
螺丝钉code5 小时前
JAVA项目 Claude code CLAUDE.md 到底应该怎么写
java·人工智能·claude code
Cosolar5 小时前
LlamaIndex 文档解析与分块策略深度解析
人工智能·面试·架构
指令集梦境5 小时前
Cursor + Spring Boot实战:从零写一个RESTful API
spring boot·后端·restful
摇滚侠6 小时前
Maven 入门+高深 单一架构案例 54-59
java·架构·maven·intellij-idea
VidDown6 小时前
Webhook 调试器:让第三方回调“原形毕露”
java·开发语言·javascript·编辑器·postman
码云之上6 小时前
聊聊如何设计一个高效、稳定的 Node.js 接入层
前端·后端·node.js