es分页边界数据重复问题处理

问题描述:

运营收到客户反馈,客户在分页查询数据的时候,出现上一页的最后一条跟下一页的第一条出现重复。

问题猜测:

1、db原始数据重复(排除)

2、es数据重复(排除)

3、新增了数据影响到了分页(确定问题)

解决方案:

1、Time base(基于时间)

与前端约定每次开始分页查询时给定一个当前时间戳,查询条件带上该时间戳,只查出小于该时间戳的数据。

2、Point in time

使用es提供的Point in time,提供基于创建时刻的数据快照,自动过期释放资源,,会占用内存,占用内存较低,适用于实时搜索、分页浏览。

3、Scroll

使用es提供的Scroll,基于初始搜索时刻的固定快照,内存较高,需维护完整的搜索上下文,需要手动管理(clear-scroll)以避免内存泄漏,适用于数据导出、批量处理。

方案对比:

|----------|---------------|-------------------|------------|
| | Time base | Point in time | Scroll |
| 适用场景 | 实时搜索、分页浏览 | 实时搜索、分页浏览 | 数据导出、批量处理 |
| 内存占用 | 低 | 较低 | 较高 |
| 资源管理 | 无 | 自动过期释放资源 | 需要手动管理 |

上述方案都可以解决翻页数据重复的问题,由于是c端查询,随着用户数量凉的增加,使用快照方式会导致服务器内存紧张,遂放弃2和3,如果在业务能够容忍新数据暂时查询不出来,可以使用1方案来解决。

上述问题在传统数据库同样存在,并不是es特有,不过es为这种问题提供了解决方案。

没有最好的方案,只有最适合的。

相关推荐
笨蛋少年派21 分钟前
使用hdfs命令报错:Unknown command:dfs(环境变量正确)
大数据·hadoop·hdfs
深兰科技1 小时前
东方财经报道|深兰科技落户张江,AI医疗与情感陪伴并进,拓展智能未来版图
大数据·人工智能·科技
格林威2 小时前
AOI在传统汽车制造领域中的应用
大数据·人工智能·数码相机·计算机视觉·ai·制造·aoi
kalvin_y_liu3 小时前
华为ACT三步走”实施路径,以推动行业智能化落地
大数据·人工智能·ai应用
涛思数据(TDengine)4 小时前
杨凌美畅用 TDengine 时序数据库,支撑 500 条产线 2 年历史数据追溯
大数据·时序数据库·tdengine
熊文豪5 小时前
时序数据库选型指南:从大数据视角看高效存储与分析
大数据·数据库·时序数据库
yumgpkpm5 小时前
CMP(类ClouderaCDP7.3(404次编译) )完全支持华为鲲鹏Aarch64(ARM)POC报告
大数据·hive·hadoop·python·elasticsearch·hbase·cloudera
AI优秘企业大脑6 小时前
更新维护:定期更新、功能修复、性能优化的全面指南
大数据·人工智能
阿里云大数据AI技术6 小时前
云栖实录 | AI原生搜索引擎:Elasticsearch 换“芯”——AI原生搜索内核增强技术
人工智能·搜索引擎
学习中的阿陈6 小时前
MapReduce运行实例
大数据·mapreduce