es分页边界数据重复问题处理

问题描述:

运营收到客户反馈,客户在分页查询数据的时候,出现上一页的最后一条跟下一页的第一条出现重复。

问题猜测:

1、db原始数据重复(排除)

2、es数据重复(排除)

3、新增了数据影响到了分页(确定问题)

解决方案:

1、Time base(基于时间)

与前端约定每次开始分页查询时给定一个当前时间戳,查询条件带上该时间戳,只查出小于该时间戳的数据。

2、Point in time

使用es提供的Point in time,提供基于创建时刻的数据快照,自动过期释放资源,,会占用内存,占用内存较低,适用于实时搜索、分页浏览。

3、Scroll

使用es提供的Scroll,基于初始搜索时刻的固定快照,内存较高,需维护完整的搜索上下文,需要手动管理(clear-scroll)以避免内存泄漏,适用于数据导出、批量处理。

方案对比:

|----------|---------------|-------------------|------------|
| | Time base | Point in time | Scroll |
| 适用场景 | 实时搜索、分页浏览 | 实时搜索、分页浏览 | 数据导出、批量处理 |
| 内存占用 | 低 | 较低 | 较高 |
| 资源管理 | 无 | 自动过期释放资源 | 需要手动管理 |

上述方案都可以解决翻页数据重复的问题,由于是c端查询,随着用户数量凉的增加,使用快照方式会导致服务器内存紧张,遂放弃2和3,如果在业务能够容忍新数据暂时查询不出来,可以使用1方案来解决。

上述问题在传统数据库同样存在,并不是es特有,不过es为这种问题提供了解决方案。

没有最好的方案,只有最适合的。

相关推荐
Elastic 中国社区官方博客26 分钟前
Elasticsearch:如何创建知识库并使用 AI Assistant 来配置 slack 连接器
大数据·人工智能·elasticsearch·搜索引擎·全文检索·信息与通信
XIAOYU67201331 分钟前
中专学历,在服装设计行业真的没出路吗?
大数据
TDengine (老段)36 分钟前
TDengine IDMP 赋能新能源:光伏电站智能运维实践
大数据·运维·数据库·物联网·时序数据库·tdengine·涛思数据
努力的光头强2 小时前
《智能体设计模式》从零基础入门到精通,看这一篇就够了!
大数据·人工智能·深度学习·microsoft·机器学习·设计模式·ai
小园子的小菜3 小时前
深度剖析Elasticsearch数据写入与读取:从分片同步到核心组件协同
大数据·elasticsearch·搜索引擎
samLi06205 小时前
【实证分析】股票市场羊群效应、股市羊群效应CSSD和CSAD数据集(2000-2024年)
大数据
武子康6 小时前
大数据-157 Apache Kylin 全面指南:MOLAP 架构、Hive/Kafka 实战与实时 OLAP 落地
大数据·后端·apache kylin
海豚调度6 小时前
结项报告完整版 | 为 Apache DolphinScheduler 添加 gRPC 插件
大数据·任务调度·开源社区·大数据调度·apachedolphinscheduler
tealcwu6 小时前
【Unity踩坑】Unity项目提示文件合并有冲突
elasticsearch·unity·游戏引擎
q***14646 小时前
MySQL 批量插入详解:快速提升大数据导入效率的实战方法
大数据·数据库·mysql