【数据结构】 Map和Set万字总结(搜索树+哈希桶+使用方法+实现方法)

文章目录


Map和Set

  • HashMap和HashSet的底层是一个哈希表

  • TreeMap 和TreeSet的底层是一棵搜索树(红黑树)

  • 涉及到一些搜索查找的场景可以调用Map和Set接口

一、搜索树

二叉搜素树 ( 二叉排序树 )

1.要么是空树

2.如果左子树不为空,则左子树上所有节点的值都小于根节点的值

3.如果右子树不为空,则右子树上所有节点的值都大于根节点的值

4.它的左右子树也是二叉搜索树

5.对二叉搜索树进行中序遍历,就能得到一个有序的数组

1.二叉搜索树的查找(search)

  • 将要查找的值,和根节点比较

  • 比根节点小的在左树找,比根节点大的在右树找

最坏情况:按单分支树找,时间复杂度为树的高度 N

最好情况:完全二叉树、满二叉树,时间复杂度为树的高度:log~2~N,效率最高

为了解决单分支树的问题,采用AVL树解决。

  • AVL树:高度平衡的二叉搜索树,保证高度一直平衡(左右高度差不超过1),需要不断进行旋转(左旋、右旋、先左在右、先右再左),来保持平衡
  • 红黑树:加入了颜色,减少了旋转
java 复制代码
public class BinarySearchTree {
    static class TreeNode {//静态内部类
        public int val;
        public TreeNode left;
        public TreeNode right;

        public TreeNode(int val) {
            this.val = val;
        }
    }

    public TreeNode root = null;

    /**
     * 查找二叉搜索树中指定的val值
     *
     * @param val
     * @return
     */
    public TreeNode find(int val) {
        TreeNode cur = root;
        while (cur != null) {
            if (cur.val == val) {
                return cur;
            } else if (cur.val < val) {
                cur = cur.left;
            } else {
                cur = cur.right;
            }
        }
        return null;
    }
  • 1.设cur结点为root位置
  • 2.cur的val如果小于目标val,cur移动到左子树
  • 3.cur 的val如果大于目标val,cur移动到右子树

2.二叉搜索树的插入

  • 1.如果是空树(root==null),直接插入根的位置
  • 2.如果不是空树,按照查找的逻辑找到要插入的位置,插入新结点
  • 3.都插入到了叶子结点,也就是cur为空时的位置
  • 4.所以要记录一个cur的双亲结点,来和val比较,决定cur==null时,插入的方向
java 复制代码
    /**
     * 插入一个数据
     *
     * @param val
     */
    public void insert(int val) {
        //root为空
        if (root == null) {
            root = new TreeNode(val);
            return;
        }
        //root不为空
        TreeNode cur = root;
        TreeNode parent = null;

        //找到cur为空的位置
        while (cur != null) {
            if (cur.val < val) {
                parent = cur;
                cur = cur.right;
            } else if (cur.val > val) {
                parent = cur;
                cur = cur.left;
            } else {
                return;
            }
        }
        //根据判断双亲结点的值来决定插入那个叶子结点
        TreeNode node = new TreeNode(val);
        if (val < parent.val) {
            parent.left = node;
        } else {
            parent.right = node;
        }
    }

    public void inorder(TreeNode root) {
        if (root == null) {
            return;
        }
        inorder(root.left);
        System.out.print(root.val + " ");
        inorder(root.right);
    }

3.二叉搜索树的删除

要删除的位置为cur,它的双亲结点为parent

  • 1.cur左结点为空:cur.left == null

    1.cur为根节点,cur没有左树,根节点移动到它的右树上

    2.cur不是根节点,此时cur为双亲结点的左结点,cur没有左树,双亲结点的左结点连上cur的右结点 parent.left = cur.right

    3.cur不是根节点,此时cur为双亲结点的右结点,cur没有左树,双亲结点的右结点连上cur的右结点 parent.right = cur.right

  • 2.cur右结点为空:cur.right == null

1.cur为根节点,cur没有右子树,根节点移动到cur的左子树上

2.cur不是根节点,cur是双亲结点的左结点,cur没有右结点,双亲结点的左结点连上cur的左结点

3.cur不是根节点,cur是双亲结点的右结点,cur没有右结点,双亲结点的右结点连上cur的左结点

3.左右结点都不为空:cur.left != null && cur.right != null

1.替换法进行删除,在cur的右子树中,找到该子树的最小值,和要删除的值交换

2.最后删除那个替换的结点,维护了二叉搜索树

3.替换的结点在它双亲结点的左边,没有左子树,target.left== nulll,如果有右子树,target双亲结点的左结点连接target的右结点(target的右结点都比target大),没有右子树,连接的是空值

4.替换的结点在它双亲结点的右边(双亲结点没有左结点),target双 亲结点的右结点连接target的右结点

java 复制代码
    /**
     * 删除值为val的结点
     *
     * @param val
     * @return
     */
    public void remove(int val) {
        TreeNode cur = root;
        TreeNode parent = null;

        //找到cur结点的位置
        while (cur != null) {
            if (cur.val == val) {
                removeNode(cur, parent);
                return;

            } else if (val < cur.val) {
                parent = cur;
                cur = cur.left;
            } else {
                parent = cur;
                cur = cur.right;
            }
        }
    }

    /**
     * 删除结点的分类情况
     *
     * @param cur
     * @param parent
     */
    private void removeNode(TreeNode cur, TreeNode parent) {
        if (cur.left == null) {
            //cur的左结点为空
            if (cur == root) {
                root = cur.right;
            } else if (cur == parent.left) {
                parent.left = cur.right;
            } else {
                parent.right = cur.right;
            }

        } else if (cur.right == null) {
            //cur的右结点为空
            if (cur == root) {
                root = cur.left;
            } else if (cur == parent.left) {
                parent.left = cur.left;
            } else {
                parent.right = cur.left;
            }
        } else {
            //cur的左右结点都不为空
            TreeNode target = cur.right;//在右树中找最小值
            TreeNode targetParent = cur;
            while (target.left != null) {
                targetParent = target;
                target = target.left;
            }//找最小值
            cur.val = target.val;//替换
            if (target == targetParent.left) {
                targetParent.left = target.right;
                //目标值在双亲结点的左边
            } else {
                targetParent.right = target.right;
                //目标值在双亲结点的右边
            }
        }
    }

4.性能分析

插入和删除操作都必须先查找,查找效率代表了二叉搜索树中各个操作的性能

  • 即结点越深,则比较次数越多
  • 插入的次序不同,可能得到不同结构的二叉搜索树

最好情况:二叉搜索树为完全二叉树,平均计较次数:log~2~N

最坏情况:二叉树退化成单分支树,平均比较次数为 N/2

  • 因为TreeSet和TreeMap的底层是红黑树,所以每次存储元素时,都得进行大小比较。
  • 所以存放到这两个集合类的数据,一定是可以比较的

二、搜索方法

1.概念

  • 1.Map和Set是一种专门用来进行搜索的容器/数据结构,搜索的效率和具体实例化的子类有关。

    分别实例化TreeMap、HashMap,两者存在效率上的差别。

    java 复制代码
            Map<String,Integer>map1 =new TreeMap<>();//查找的复杂度为o(logN)
            Map<String,Integer>map2 =new HashMap<>();//查找的复杂度为o(1)
            // TreeMap的底层是搜索树
            // HashMap的底层是哈希表:数组+链表+红黑树组成
  • 2.常见的搜索方法为 静态查找,一般不进行插入、删除。

    1,直接遍历: 时间复杂度为 o(N),元素越多,效率越慢。

    2.二分查找:时间复杂度为 o(log~2~N),要求搜索前必须是有序的。

  • 3.而Map和Set是可以进行 动态查找 的集合容器。

  • 4.只有关键字的叫纯Key模型(Set),由关键字和其对应的值形成的键值对,叫Key-Value模型(Map)

三、Map的使用

1.概念:

  • Map是一个接口类,没有继承于Collection。
  • 存储的形式是 Key-Value 键值对,并且Key是唯一的,不能重复。

2.Map的常用方法:

1.V put(K Key ,V Value )

设置Key对应的Value,将元素对应的值进行存储

  • Map的底层是一棵搜索树,在放进搜索树的时候要进行比较,比较的对象是关键字Key
java 复制代码
    public static void main(String[] args) {
        Map<String,Integer>map1 =new TreeMap<>();//查找的复杂度为o(logN)
        map1.put("Math",3);
        map1.put("Chinese",2);
        map1.put("English",4);
        System.out.println(map1);
    }
	//{Chinese=2, English=4, Math=3}
2.V get(Object key)
  • 返回对应的value,通过Key得到对应的值
java 复制代码
        System.out.println(map1.get("Math"));//2
        System.out.println(map1.get("Art"));//null

如果get传进的Key不存在,则返回的Value值为null

3.V getOrDefault(Object key, V defaultValue)
  • 返回 key 对应的 value,key 不存在,返回默认值

    java 复制代码
             map1.put("Math",3);
    		System.out.println(map1.getOrDefault("Science", 7));//7
             System.out.println(map1.getOrDefault("Math", 7));   //3

    如果给的Key值在Map中存在,返回原本的Value,忽视自己填的默认值

4.V remove(Object key)
  • 根据Key来删除K-V的映射关系
java 复制代码
        System.out.println(map1.remove("English"));//4
        System.out.println("++++++");
        System.out.println(map1.containsValue(4));		//false
        System.out.println(map1.containsKey("English"));//false

再remove()中传入Key, key和其对应的Value均删除

remove()返回删除的Value

5.Set keySet()
  • 返回所有 key 的不重复集合 ,返回的是一个set
java 复制代码
        Set<String>set = map1.keySet();
        System.out.println(set);//[Chinese, English, Math]
6.Collection values()
  • 返回所有 value 的可重复集合
java 复制代码
        Collection<Integer> values = map1.values();
        System.out.println(values);//[2, 4, 3]
7.Set<Map.Entry<K, V>> entrySet()
  • 返回所有的 key-value 映射关系

  • 将map的Key和Value看作一个整体(Entry),Set中存放不同的Entry

java 复制代码
        Set<Map.Entry<String, Integer>> entrySet = map1.entrySet();
        for (Map.Entry<String, Integer> entry : entrySet) {
            System.out.println("Key:"+entry.getKey()+" Value:"+entry.getValue());
        }

//Key:Chinese Value:2
//Key:English Value:4
//Key:Math Value:3
8.boolean containsKey(Object key)
  • 判断是否包含 key
java 复制代码
        System.out.println(map1.containsKey("Chinese"));//true
9.boolean containsValue(Object value)
  • 判断是否包含Value
java 复制代码
        System.out.println(map1.containsValue(3));true

3.Map的注意事项

  • 1.Map是一个接口,不能直接实例化对象。只能实例化它的实现类TreeMap和HashMap
  • 2.Map中存放键值对中的Key是唯一的,Value不唯一
java 复制代码
        map1.put("English", 4);
        map1.put("English",44);

如果存储相同的Key,会覆盖掉之前的Value.

  • 3.在TreeMap中插入键值对时,Key不能为空,否则会抛出空指针异常,

    ​ Value可以为空。HashMap的Key和Value都可以为空

  • 4.Map中的Key因为不能重复,可以全部用keySet分离出来,存进Set中。Value也可以分离出来,存在Collection的任何一个子集合中(可以重复)

  • 5.Map中的键值对,Key不能直接修改,Value可以直接修改。如皋要修改Key,需要先删除Key,再重新插入

四、Set的使用

  • 和Map不同的是,Set继承于Collection。Set中只存储了Key

1.Set的常用方法:

1.boolean add(E e)
  • 添加元素,如果存在则无法添加。
java 复制代码
        Set<String>set = new TreeSet<>();
        set.add("Hello");
        set.add("World");
        boolean happy = set.add("Happy");
        boolean hello = set.add("Hello");
        System.out.println(set);//[Happy, Hello, World]
        System.out.println(happy);//true
        System.out.println(hello);//false
2.void clear()
java 复制代码
   set.clear();
  • 清空集合
3.boolean contains(Object o)
java 复制代码
        System.out.println(set.contains("Hello"));//true
        System.out.println(set.contains("hello"));//false
  • 判断元素在集合中是否存在
4.boolean remove(Object o)
java 复制代码
        System.out.println(set.remove("Hello"));//true
        System.out.println(set.remove("hello"));//false
  • 删除集合中的元素,返回值为布尔类型
5.int size()
java 复制代码
      System.out.println(set.size());//2
  • 返回集合的大小
6.boolean isEmpty()
java 复制代码
       System.out.println(set.isEmpty());//false
  • 判断集合是否为空
7.Object[] toArray()
java 复制代码
        System.out.println(set);//[Happy, World]
        System.out.println(set.toArray());//[Ljava.lang.Object;@4554617c
  • 将Set中的元素转化为数组返回
8.boolean containsAll(Collection<?> c)
java 复制代码
        Deque<String> deque = new ArrayDeque<>();
        deque.add("Happy");
        deque.add("World");
        System.out.println(set.containsAll(deque));//true
  • 判断集合c中的元素是否在set中全部存在,是返回true,否则返回 false

    只要继承了Collection的类都可以比较

9.boolean addAll(Collection<? extends E> c)
java 复制代码
        Deque<String> deque = new ArrayDeque<>();
        deque.add("Happy");
        deque.add("World");
        deque.add("adddadd");
        System.out.println(set.containsAll(deque));//true
        System.out.println(set.addAll(deque));//true
        System.out.println(set);//[Happy, World, adddadd]
  • 将集合c中的元素添加到set中,可以达到去重的效果
10.Iterator iterator()
  • 返回迭代器
  • 继承自iterable的类都可以使用,HashMap和TreeMap不支持使用迭代器遍历,只能把map转化成Set
java 复制代码
        Iterator<String> iterator = set.iterator();
        while (iterator.hasNext()){
            System.out.println(iterator.next());
        }//Happy
         //World

如果有下一个,打印下一个

2.Set的注意事项:

1.Set是继承自Collection的一个借口类

2.Set中只存有Key,且Key唯一.Key不能修改,修改要先删除,再重新插入

3.TreeSet的底层是用Map实现的

new 的TreeSet,实际上new的是一个TreeMap对象。这个TreeMap的Value都是一个Object对象

TreeSet不能插入为null的Key,HashSet可以,因为TreeSet是需要比较的

4.Set的最大功能是对集合进行去重。

Key不能重复且唯一

5.Set的常用接口的TreeSet和HashSet,

LinkedHashSet在HashSet的基础上,维护了双向链表,来记录元素的插入顺序

五、哈希表

1.概念

  • 查找的时间复杂度:二分查找为 o(N),搜索树为o(log~2~N) 哈希表为 o(1)
  • 通过关键字Key来快速找到对应的值,不比较,直接找到。
  • 通过一个函数将关键字和存储位置直接建立一一对应的关系,从而避免了不断的比较查找

这种映射的方法叫哈希(散列)方法,函数叫哈希函数,构造的结构叫哈希表(HashTable)

2.哈希函数

hash(key) = key % capacity

capacity是存储空间的大小

  • 哈希冲突:当两个不同的值,经过哈希函数,得到相同的地址时,发生哈希碰撞
  • 发生冲突的原因:1.存储的容量小于要存储的数量。2.哈希函数的设计不合理
  • 哈希冲突无法解决,只能尽量降低冲突率
1.设计哈希函数:

1.要足够简单

2.计算的地址在空间中均匀分布

3.有m个地址,值域为0到m-1

2.常见的哈希函数
1.直接定址法(常用):

HashKey= A*Key + B 关键字的线性函数

  • 优点:简单、均匀
  • 缺点:需要事先知道关键字的分布情况
  • 场景:查找比较小且连续的数
2.除留余数法(常用)

Hash(key) = key% p(p<=m)

3.负载因子

负载因子 a = 填进表中的元素个数 / 哈希表的长度

4.解决冲突
1.闭散列法(开放地址法)
1.线性探测法:冲突的时候,放到下一个空的位置
  • 缺点:将冲突的元素放在了一起
2.二次探测:
  • 缺点:空间利用率低
  • 解决了线性探测聚到一起的问题
  • 超过0.5要扩容
2.开散列法(哈希桶)
  • 也叫链地址法、开链法
  • 数组+链表 :数组的每个元素就是链表的头结点
  • 数组+链表+红黑树(当数组长度>=64 && 链表长度 >=8 以后,把链表变成红黑树,小于又变回去【树化、解树化】)

JDK7以前:用头插法存进数组中的链表

JDK8以后:采用尾插法

5.HashBunk(哈希桶的实现)

哈希桶的结构

java 复制代码
public class HashBunk {
    static class Node {
        int key;
        int val;
        Node next;

        public Node(int key, int val) {
            this.key = key;
            this.val = val;
        }
    }

    public Node[] array;
    public int usedSize;
    public static final float DEFAULT_LOAD_FACTOR = 0.75f;//负载因子

    public HashBunk() {
        array = new Node[10];
    }
}

哈希桶的插入:采用尾插法实现

java 复制代码
 /**
     * 哈希桶的插入
     *
     * @param key
     * @param val
     */
    public void put(int key, int val) {

        int index = key % array.length;
        //找到要插入的链表所在数组的下标标

        Node cur = array[index];
        //遍历index处的链表,看是否存在Key,
        // 存在,跟新val
        //不存在,进行尾插法
        while (cur != null) {
            if (cur.key == key) {
                cur.val = val;//key存在,更新val
                return;
            }
            cur = cur.next;
        }
        if (array[index]==null){
            Node node = new Node(key, val);
            array[index]=node;
            usedSize++;
        }else {
            cur = array[index];
            while (cur.next!=null){
                cur = cur.next;
            }
            //进行尾插法
            Node node = new Node(key, val);
            cur.next = node;
            node.next = null;
            usedSize++;

        }
        //计算当前负载因子
        if (doLoadFactor() > DEFAULT_LOAD_FACTOR) {
            //进行扩容,不光要改变数组的大小,还要重新确定链表的首地址
            //因为之前的首地址是按照之前的容量大小计算出来的。
            resize();
        }
    }

数组大小的扩容,同时要重新确定链表中每个结点的位置

java 复制代码
    private void resize() {
        Node[] newArray = new Node[2 * array.length];
        for (int i = 0; i < array.length; i++) {
            //遍历原来的数组
            Node cur = array[i];
            //得到原来数组的首结点
            while (cur != null) {
                //遍历链表
                int newIndex = cur.key % newArray.length;
                Node tmp = cur.next;
                Node node = cur;
                node.next = null;
                if (newArray[newIndex] == null) {
                    newArray[newIndex] = node;
                } else {
                    Node lastNode = getLastNode(newArray[newIndex]);
                    lastNode.next = node;
                }
                cur = tmp;
            }
        }
        array = newArray;
    }

    private Node getLastNode(Node cur) {
        while (cur.next != null) {
            cur = cur.next;
        }
        return cur;
    }

    private float doLoadFactor() {
        return usedSize * 1.0f / array.length;

    }

    public int get(int key){
        int index = key%array.length;
        Node cur = array[index];
        while (cur!=null){
            if (cur.key==key){
                return cur.val;
            }
            cur = cur.next;
        }
        return -1;
    }
6.HashCode方法
  • 当传入对象,转化成整数进行比较
  • HashCode在Object的类中(是一个native方法,看不到)
  • 所以要对HashCode进行重写
java 复制代码
        HashMap<Student,Integer>map = new HashMap<>();
        Student student1 = new Student("小王",001);
        Student student2 = new Student("小王",001);
        System.out.println(student1.hashCode());//1163157884
        System.out.println(student2.hashCode());//1956725890
  • 当没有重写HashCode方法,而是采用默认的,此时,HashCode的值不同
java 复制代码
    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        Student student = (Student) o;
        return id == student.id && Objects.equals(name, student.name);
    }

    @Override
    public int hashCode() {
        return Objects.hash(name, id);
    }
  • 当重写了HashCode方法(equals顺便一起生成),此时,HashCode的值一样
java 复制代码
        System.out.println(student1.hashCode());//1163157884
        System.out.println(student2.hashCode());//1956725890
        map.put(student1,2);
        System.out.println(map.get(student2));//2
        //23565798
        //23565798
  • 由于两个对象的id和name相同,同时重写了HashCode方法。因此两个的HashCode值相同,所以get student2 得到的val就是student1的val。
HashBunk(K,V)实现
java 复制代码
public class HashBunk2<K, V> {
    static class Node<K, V> {
        public K key;
        public V val;

        public Node<K, V> next;

        public Node(K key, V val) {
            this.key = key;
            this.val = val;
        }
    }

    public Node<K, V>[] array;
    public int usedSize;
    public static final float DEFAULT_LOAD_FACTOR = 0.75f;


    public HashBunk2() {
        array = (Node<K, V>[]) new Node[10];
    }

    public void put(K key, V val) {
        int hash = key.hashCode();
        int index = hash % array.length;
        Node<K, V> cur = array[index];
        while (cur != null) {
            if (cur.key .equals(key)) {
                cur.val = val;
                //更新Val
                return;
            }
            cur = cur.next;
        }
        Node<K, V> node = new Node<>(key, val);
        node.next = array[index];
        array[index] = node;
        usedSize++;
    }

    public V getValue(K key) {
        int hash = key.hashCode();
        int index = hash % array.length;
        Node<K, V> cur = array[index];
        while (cur != null) {
            if (cur.key.equals(key) ) {
                return cur.val;
            }
            cur = cur.next;
        }
        return null;
    }
  • HashCode方法是为了在数组中找到对应的位置

  • equals方法是用来判断该位置链表中的元素是否有目标元素

  • 类似于查字典,先找到哪一页,再找到具体的字

  • 以后在写自定义对象时,要先验证一下equals和HashCode

3.TreeMap 和 HashMap 的区别:

Map TreeMap HashMap
底层结构 红黑树 哈希桶
插、删、查找的时间复杂度 o(log~2~N) o(1)
是否有序 Key有序 无序
线程安全 不安全 不安全
插、删、查找区别 进行元素比较 哈希函数计数哈希地址
比较与覆写 Key必须可以比较 自定义类型要重写equals和HashCode
应用场景 需要Key有序 需要更高的时间性能

4.TreeSet 和 HashSet 的区别:

Set TreeSet HashSet
底层结构 红黑树 哈希桶
插、删、查找的时间复杂度 o(log~2~N) o(1)
是否有序 Key有序 不一定有序
线程安全 不安全 不安全
插、删、查找区别 按红黑树的特性 计算哈希地址
比较与覆写 Key必须可以比较 自定义类型要重写equals和HashCode
应用场景 需要Key有序 需要更高的时间性能

点击移步博客主页,欢迎光临~

相关推荐
Captain823Jack27 分钟前
nlp新词发现——浅析 TF·IDF
人工智能·python·深度学习·神经网络·算法·自然语言处理
Captain823Jack1 小时前
w04_nlp大模型训练·中文分词
人工智能·python·深度学习·神经网络·算法·自然语言处理·中文分词
Aileen_0v02 小时前
【AI驱动的数据结构:包装类的艺术与科学】
linux·数据结构·人工智能·笔记·网络协议·tcp/ip·whisper
是小胡嘛2 小时前
数据结构之旅:红黑树如何驱动 Set 和 Map
数据结构·算法
m0_748255022 小时前
前端常用算法集合
前端·算法
呆呆的猫2 小时前
【LeetCode】227、基本计算器 II
算法·leetcode·职场和发展
Tisfy2 小时前
LeetCode 1705.吃苹果的最大数目:贪心(优先队列) - 清晰题解
算法·leetcode·优先队列·贪心·
余额不足121382 小时前
C语言基础十六:枚举、c语言中文件的读写操作
linux·c语言·算法
yuanManGan4 小时前
数据结构漫游记:静态链表的实现(CPP)
数据结构·链表
火星机器人life5 小时前
基于ceres优化的3d激光雷达开源算法
算法·3d