前情提要:一点小小的不完善的方案的思考和设计,不对的地方或是更好的方案欢迎大佬们在评论区讨论~
需求背景:
在Redis里使用List数据结构做任务队列,但是有的时候任务可能会重复添加,所以需要进行去重。 队列需要有优先级,尽量减少Redis操作次数。
尝试方案
目前能够想到的方案有以下几种:
1. List 不重复添加
只使用List,将新的任务加入任务队列之前先判断该任务是否已经存在。 添加任务: 在加入任务队列之前获取List的全部元素,如果新的任务在任务队列里已经存在了,就直接返回;否则的话,将新的任务添加到List里。 获取名字为task_queue
的全部元素
powershell
LRANGE task_queue 0 -1
将元素插入队尾
shell
LPUSH task_queue val1
执行任务: 从队首取任务。
弹出队首元素
shell
LPOP task_queue
2.List 重复添加
只使用List,但是在出队的时候删除相同的元素。 添加任务: 往List里放数据 将元素插入队尾
shell
LPUSH task_queue val1
执行任务: 从队首取数据,并且取任务的时候将相同的元素删除。 弹出队首元素
shell
LPOP task_queue
移除队列里和val1
值相等的元素 LREM说明
shell
LREM task_queue 0 val1
3. List + Set/Hash/Bloom Filter
Set/Hash/Bloom Filter 的作用都是哈希表,里面存储任务的唯一标识,确保任务不会重复,下面以Set为例。因为从功能性而言,List里存放的是任务的基础信息,除了唯一标识外还有其他额外的业务信息,Set里只用来确保任务不会重复,无需存储额外信息。当然也可以List里只存储任务的唯一标识,Hash里存放额外的业务信息。至于布隆过滤器,一般用于数据量很大的场景,这里的设计都是基于100以内的小排队模式。 添加任务: 先判断该任务在Set里是否存在,如果存在的话,就直接返回;否则,将该任务添加到List和Set里。 判断某个元素val1
是否在集合task_set
里存在
shell
SISMEMBER task_set val1
将元素插入队尾
shell
LPUSH task_queue val1
向Set添加一个元素
shell
SADD task_set val1
执行任务: 先从List里取数据,判断其在Set里是否存在,如果不存在的话,说明是非法情况,可以给予报警或其他逻辑处理;存在的话,将该元素从Set里删除。 判断某个元素val1
是否在集合task_set
里存在
shell
SISMEMBER task_set val1
弹出队首元素
shell
LPOP task_queue
4. sorted set (ZSet)
将任务表示作为成员,分数是任务执行时间或是优先级或是其他规则作为分数,这样可以对任务进行排序。 添加任务:
先判断在ZSet里是否存在,如果存在的话跳过或执行业务代码;不存在的话将其添加到ZSet里。 判断某个元素是否存在,ZSet没有直接的api,需要借助其他方式来判断,比如通过返回有序集中元素的分数值可以判断
shell
ZSCORE task_zset val1
添加元素到ZSet里
shell
ZADD key task_zset val1
执行任务: 按排序规则取任务 取分数最大的元素 ZRANGE说明
shell
ZRANGE task_zset 0 0 WITHSCORES
移除分数最大的元素 ZREMRANGEBYRANK 说明
shell
ZREMRANGEBYRANK task_zset 0 0
5. Lua脚本
使用Lua脚本实现原子性操作。可以在添加新任务时执行 Lua 脚本,该脚本会检查任务是否已存在、更新状态等。使用 Lua 脚本的好处是可以减少网络往返次数和提高执行效率。
6. 开源库或框架
Celery:是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的异步任务队列,同时也支持任务调度。 源码 介绍
问题思考
以上方案存在的问题在于,如果一个任务执行的时间较长,取任务的时候就已经将其从任务队列里删除了,但是当重复任务到达的时候,上一个任务其实并没有执行完,此时任务队列里也没有这个任务,还是会被添加到队列里。 目前能够想到的解决方案,第一个是双List ,一个List里存放待执行的任务,一个List里存放正在执行的任务,添加任务的时候同时检查这两个List是否有任务。第二个是List+Set方案里,修改Set里数据表示的含义,待执行和正在执行的任务都存在Set里,也就是执行任务的时候,先从List队首取元素,执行任务,然后再将Set中的元素删除。