【LeetCode】4. 去重的效率提升

看一道简单题

初始做法

python 复制代码
class Solution:
    def removeDuplicates(self, nums: List[int]) -> int:
        hashMap = []
        k = 0

        for i in nums:
            if i not in hashMap:
                hashMap.append(i)
                nums[k] = i
                k += 1
        
        nums[:] = nums[:k]
         
        return k

这个做法建立了一个数组用来存储重复值。

python 复制代码
if i not in hashMap

会导致多次遍历,猜测是这一段增加了内存消耗。

优化思路应该将遍历减少到最低

使用set优化

python 复制代码
class Solution:
    def removeDuplicates(self, nums: List[int]) -> int:
        seen = set()  # 用于记录已出现的元素
        k = 0  # 指向放置下一个唯一值的位置

        for i in nums:
            if i not in seen:
                seen.add(i)  # 将新元素添加到集合中
                nums[k] = i  # 将唯一值放到 nums 的前面
                k += 1

        # 保留前 k 个元素
        nums[:] = nums[:k]

        return k

注意set是基于 哈希表 实现的

set 比 list 效率高,尤其是在执行查找操作时,这是因为两者底层的实现机制不同。具体原因如下:

1. list 的实现

数据结构: list 是一种动态数组,元素按插入顺序连续存储。
查找操作:

当你执行 x in list,Python 必须从头开始遍历列表中的每个元素,逐一检查是否等于 x。

最坏情况下需要检查所有元素,时间复杂度为 O(n)。
适合的场景:

适用于需要保留元素顺序或频繁执行索引访问(list[i],时间复杂度为 O(1)。

2. set 的实现

数据结构:

set 是基于 哈希表 的无序集合。

每个元素会通过哈希函数映射到一个特定的存储位置(桶)。

哈希表通过哈希值快速定位元素的位置,而无需遍历整个集合。

查找操作:

当你执行 x in set,Python 使用哈希函数计算 x 的哈希值,然后直接定位到对应的存储桶,查看是否存在。

在没有大量哈希冲突的情况下,查找的时间复杂度为 O(1)。

即使发生哈希冲突(两个不同的值映射到相同的桶),通过链表或其他冲突处理机制,效率仍然远高于线性查找。

适合的场景:

适用于频繁执行查找、插入、删除操作,且不需要关心元素顺序。

相关推荐
6Hzlia5 分钟前
【Hot 100 刷题计划】 LeetCode 1143. 最长公共子序列 | C++ 二维DP 与 哨兵技巧
c++·算法·leetcode
Allen_LVyingbo13 分钟前
《狄拉克符号法50讲》习题与解析(下)
算法·决策树·机器学习·健康医疗·量子计算
豆沙糕14 分钟前
大模型面试高频题:请详细讲解检索中的BM25算法
人工智能·算法
不才小强15 分钟前
查找算法详解:二分查找
数据结构·算法
君义_noip18 分钟前
信息学奥赛一本通 4164:【GESP2512七级】学习小组 | 洛谷 P14922 [GESP202512 七级] 学习小组
学习·算法·动态规划·gesp·信息学奥赛
MicroTech202518 分钟前
微算法科技(NASDAQ :MLGO)面向区块链的系统的高效反量子晶格盲签名技术
科技·算法·区块链
yuan1999733 分钟前
OpenCV ViBe 运动检测算法实现
人工智能·opencv·算法
人工智能培训1 小时前
如何将高层任务分解为可执行的动作序列?
大数据·人工智能·算法·机器学习·知识图谱
罗湖老棍子1 小时前
Power Strings(信息学奥赛一本通- P1457)
算法·字符串·哈希
MIngYaaa5201 小时前
The 2025 Sichuan Provincial Collegiate Programming Contest 复盘
算法