《剑指 Offer》专项突破版 - 面试题 59、60 和 61 : 详解堆的应用(C++ 实现)

目录

前言

[面试题 59 : 数据流的第 k 大数字](#面试题 59 : 数据流的第 k 大数字)

[面试题 60 : 出现频率最高的 k 个数字](#面试题 60 : 出现频率最高的 k 个数字)

[面试题 61 : 和最小的 k 个数对](#面试题 61 : 和最小的 k 个数对)



前言

堆最大的特点是最大值或最小值位于堆的顶部,只需要 O(1) 的时间就可以求出一个数据集合中的最大值或最小值,同时在堆中添加或删除元素的时间复杂度都是 O(logn),因此综合来看堆是一个比较高效的数据结构 。如果面试题需要求出一个动态数据集合中的最大值或最小值,那么可以考虑使用堆来解决问题。

堆经常用来求取一个数据集合中值最大或最小的 k 个元素。通常,最小堆用来求取数据集合中 k 个值最大的元素,最大堆用来求取数据集合中 k 个值最小的元素

接下来使用最小堆或最大堆解决几道典型的算法面试题。


面试题 59 : 数据流的第 k 大数字

题目

请设计一个类型 KthLargest,它每次从一个数据流中读取一个数字,并得出数据流已经读取的数字中第 k(k >= 1)大的数字。该类型的构造函数有两个参数:一个是整数 k,另一个是包含数据流中最开始数字的整数数组 nums。该类型还有一个函数 add,用来添加数据流中的新数字并返回数据流中已经读取的数字的第 k 大数字。

例如,当 k = 3 且 nums 为数组 [4, 5, 8, 2] 时,调用构造函数创建类型 KthLargest 的实例之后,第 1 次调用 add 函数添加数字 3,此时已经从数据流中读取了数字 4、5、8、2 和 3,第 3 大的数字是 4;第 2 次调用 add 函数添加数字 5 时,则返回第 3 大的数字 5。

分析

与数据流相关的题目的特点是输入的数据是动态添加的,也就是,可以不断地从数据流中读取新的数据,数据流的数据量是无限的。在这个题目中,类型 KthLargest 的函数 add 用来添加从数据流中读取的新数据。

解决这个题目的关键在于选择合适的数据结构。如果数据存储在排序的数组中,那么只需要 O(1) 的时间就能找出第 k 大的数字。但这个直观的方法有两个缺点。首先,需要把从数据流中读取的所有数据都存到排序数组中,如果从数据流中读取 n 个数字,那么动态数组的大小为 O(n)。随着不断地从数据流中读取新的数据,O(n) 的空间复杂度可能会耗尽所有的内存。其次,在排序数组中添加新的数字的时间复杂度也是 O(n)

下面换一个角度看待第 k 大的数字。如果能够找出 k 个最大的数字,那么第 k 大的数字就是这 k 个最大数字中最小的一个。例如,从数据流中已经读出了 4、5、8、2、3 这 5 个数字,其中最大的 3 个数字是 4、5、8。这 3 个数字的最小值 4 就是 4、5、8、2、3 这 5 个数字中第 3 大的数字。

由于每次都需要找出 k 个数字中的最小值,因此可以把这 k 个数字保存到最小堆中。每当从数据流中读出一个数字,就先判断这个新的数字是不是有必要添加到最小堆中

  1. 如果最小堆中元素的数目还小于 k,那么直接将它添加到最小堆中

  2. 如果最小堆中已经有 k 个元素,那么将其和位于堆顶的最小值进行比较。如果新读出的数字小于或等于堆中的最小值,那么堆中的 k 个数字都比它大,因此它不可能是 k 个最大的数字中的一个。由于只需要保存最大的 k 个数字,因此新读出的数字可以忽略。如果新的数字大于堆顶的数字,那么堆顶的数字就是第 k + 1 大的数字,可以将它从堆中删除,并将新的数字添加到堆中,这样堆中保存的仍然是到目前为止从数据流中读出的最大的 k 个数字,此时第 k 大的数字正好位于最小堆的堆顶

代码实现

cpp 复制代码
class KthLargest {
public:
    KthLargest(int k, vector<int>& nums) : capacity(k) {
        for (int num : nums)
        {
            add(num);
        }
    }
    
    int add(int val) {
        if (minHeap.size() < capacity)
        {
            minHeap.push(val);
        }
        else if (val > minHeap.top())
        {
            minHeap.pop();
            minHeap.push(val);
        }
        return minHeap.top();
    }
private:
    priority_queue<int, vector<int>, greater<int>> minHeap;
    size_t capacity;
};

假设数据流中总共有 n 个数字。这种解法特别适合 n 远大于 k 的场景。当 n 非常大时,内存可能不能容纳数据流中的所有数字。但使用最小堆之后,内存中只需要保存 k 个数字,空间效率非常高


面试题 60 : 出现频率最高的 k 个数字

题目

请找出数组中出现频率最高的 k 个数字。例如,当 k 等于 2 时,输入数组 [1, 2, 2, 1, 3, 1],由于数字 1 出现了 3 次,数字 2 出现了 2 次,数字 3 出现了 1 次,因此出现频率最高的 2 个数字是 1 和 2。

分析

如果在面试过程中遇到这个题目,首先要想到的是解决这个题目需要用到哈希表。这个题目的输入是一个数组,哈希表可以用来统计数组中数字出现的频率,哈希表的键是数组中出现的数字,而值是数字出现的频率

接下来找出出现频率最高的 k 个数字。可以用一个最小堆存储出现频率最高的 k 个数字,堆中的每个元素是数组中的数字及其在数组中出现的次数(即哈希表中数字到频率的映射)。由于比较的是数字的频率,因此设置最小堆比较元素的规则,以便让频率最低的数字位于堆的顶部

代码实现

cpp 复制代码
struct GreaterCmpByCnt
{
    bool operator()(const pair<int, int>& lhs, const pair<int, int>& rhs) const
    {
        return lhs.second > rhs.second;
    }
};
​
class Solution {
public:
    vector<int> topKFrequent(vector<int>& nums, int k) {
        unordered_map<int, int> numToCount;
        for (int num : nums)
        {
            ++numToCount[num];
        }
​
        priority_queue<pair<int, int>, vector<pair<int, int>>, GreaterCmpByCnt> minHeap;
        for (const pair<int, int>& kv : numToCount)
        {
            if (minHeap.size() < k)
            {
                minHeap.push(kv);
            }
            else if (minHeap.top().second < kv.second)
            {
                minHeap.pop();
                minHeap.push(kv);
            }
        }
​
        vector<int> result(k);
        for (int i = 0; i < k; ++i)
        {
            result[i] = minHeap.top().first;
            minHeap.pop();
        }
        return result;
    }
};

面试题 61 : 和最小的 k 个数对

题目

给定两个递增排序的整数数组,从两个数组中各取一个数字 u 和 v 组成一个数对 (u, v),请找出和最小的 k 个数对。例如,输入两个数组 [1, 5, 13, 21] 和 [2, 4, 9, 15],和最小的 3 个数对为 (1, 2)、(1, 4) 和 (2, 5)。

分析

假设第 1 个数组 nums1 的长度为 m,第 2 个数组 nums2 的长度为 n,那么从两个数组中各取一个数字能组成 m x n 个数对。

这个题目要求找出和最小的 k 个数对。可以用最大堆来存储这个 k 个和最小的数对。逐一将 m x n 个数对添加到最大堆中

题目给出的条件是输入的两个数组都是递增排序的 ,这个特性我们还没有用到。如果从第 1 个数组中选出第 k + 1 个数字和第 2 个数组中的某个数字组成数对 p,那么该数对之和一定不是和最小的 k 个数对中的一个,这是因为第 1 个数组中的前 k 个数字和第 2 个数组中的同一个数字组成的 k 个数对之和都要小于数对 p 之和。因此,不管输入的数组 nums1 有多长,最多只考虑前 k 个数字。同理,不管输入的数组 nums2 有多长,最多也只考虑前 k 个数字。

代码实现

cpp 复制代码
struct LessCmpBySum {
    bool operator()(const vector<int>& lhs, const vector<int>& rhs) 
    {
        return lhs[0] + lhs[1] < rhs[0] + rhs[1];
    }
};
​
class Solution {
public:
    vector<vector<int>> kSmallestPairs(vector<int>& nums1, vector<int>& nums2, int k) {
        priority_queue<vector<int>, vector<vector<int>>, LessCmpBySum> maxHeap;
        int m = min((int)nums1.size(), k), n = min((int)nums2.size(), k);
        for (int i = 0; i < m; ++i)
        {
            for (int j = 0; j < n; ++j)
            {
                if (maxHeap.size() < k)
                {
                    maxHeap.push({ nums1[i], nums2[j] });
                }
                else if (nums1[i] + nums2[j] < maxHeap.top()[0] + maxHeap.top()[1])
                {
                    maxHeap.pop();
                    maxHeap.push({ nums1[i], nums2[j] });
                }
            }
        }
​
        vector<vector<int>> result;
        while (!maxHeap.empty())
        {
            result.push_back(maxHeap.top());
            maxHeap.pop();
        }
        return result;
    }
};

上述代码有两个相互嵌套的 for 循环,每个循环最多执行 k 次(假设数组 num1 和 num2 的长度都大于或等于 k)。在循环体内可能在最大堆中进行添加或删除操作,由于最大堆中最多包含 k 个元素,因此添加、删除操作的时间复杂度都是 O(logk)。这两个 for 循环的时间复杂度是 O(k^2 * logk)。另外,上述代码还有一个 while 循环,它逐一从最大堆中删除元素并将对应的数对添加到 result 数组中,这个 while 循环的时间复杂度是 O(klogk)。因此,上述代码总的时间复杂度是 O(k^2 * logk)

相关推荐
yyytucj5 分钟前
python--列表list切分(超详细)
linux·开发语言·python
肖田变强不变秃34 分钟前
C++实现有限元计算 矩阵装配Assembly类
开发语言·c++·矩阵·有限元·ansys
王磊鑫38 分钟前
Java入门笔记(1)
java·开发语言·笔记
喜欢猪猪1 小时前
分布式与微服务:构建现代应用的关键架构
开发语言·php
BingLin-Liu1 小时前
蓝桥杯备考:红黑树与map和set
职场和发展·蓝桥杯
硬件人某某某1 小时前
Java基于SSM框架的社区团购系统小程序设计与实现(附源码,文档,部署)
java·开发语言·社区团购小程序·团购小程序·java社区团购小程序
c++初学者ABC1 小时前
学生管理系统C++版(简单版)详解
c++·结构体·学生管理系统
kucupung1 小时前
【C++基础】多线程并发场景下的同步方法
开发语言·c++
Quantum&Coder1 小时前
Objective-C语言的计算机基础
开发语言·后端·golang
L73S371 小时前
C++入门(1)
c++·程序人生·考研·蓝桥杯·学习方法