Interview preparation--Elasticsearch并发控制

Elasticsearch 并发控制
  • Elasticsearch是分布式的。创建,更新,删除文档时,必须将文档的新版本复制到集群中的其他节点。ES也是异步并行的,所有这些复制请求是并行发送的,并且可能不安顺序执行到每一个节点。ES需要一种并发策略来保证数据的安全性,而这种策略就是乐观锁并发控制策略。
  • 为了保证旧文档不会被新文档覆盖,对文档执行的每个操作都由协调该更改的主分片分配一个序列号(_seq_no)。每个操作都会操作序列号递增,因此可以保证较新的操作具有更高的序列号。然后,ES 可以使用操作序列号来确保更新的文档版本永远不会被分配了较小序列号的版本覆盖。
版本号: _version
  • 基本原理:

  • 每个索引文档都有一个版本号。默认情况下,使用从1 开始的内部版本控制,每次更新都会增加。 可选操作是,版本号可以设置为外部(比如在数据库中维护)。 可以通过设置version_type = external。 提供的值必须大于或等于0 而且小于9.2e + 18 左右的数字长整型值。

  • 如果设置了version_type = external,在用外部版本类型时候,系统会检查传递给索引请求的版本号是否大于当前存储文档的版本。如果为真,文档将被索引并使用新的版本号。如果提供的值小于或等于存储文档的版本号,则会发生版本冲突,索引操作将失败。

  • _version 的有效范围是当前文档

使用if_seq_no 和 if_primary_term 进行版本控制
  • if_seq_no 和 if_primary_term 是用来并发控制,和 _version不同,_version属于当前文档,而 _seq_no属于整个index。
  • if_seq_no : 索引级别的版本号,索引中所有文档共享一个 _seq_no
  • _primary_term:是一个整数,当Primary Shard发生重新分配的时候,比如节点冲突,Primary选举或者重新分配等,_primary_term会递增1,主要用来恢复数据时候处理多个文档的_seq_no一样时候避免冲突,避免Primary Shard 上的数据被覆盖。
相关推荐
沧海寄馀生12 分钟前
Apache Hadoop生态组件部署分享-Kafka
大数据·hadoop·分布式·kafka·apache
B站计算机毕业设计之家17 分钟前
大数据项目:基于python电商平台用户行为数据分析可视化系统 电商订单数据分析 Django框架 Echarts可视化 大数据技术(建议收藏)
大数据·python·机器学习·数据分析·django·电商·用户分析
测试人社区—667928 分钟前
GPT-4开启“软件工程3.0“新时代:测试工程师的智能化转型指南
大数据
数据猿32 分钟前
【“致敬十年”系列】专访中国商联数据委会长邹东生:以“最小化场景闭环”实现AI真价值
大数据·人工智能
web3.088899935 分钟前
唯品会商品详情 API 数据解析
大数据
B站计算机毕业设计之家44 分钟前
大数据:基于python唯品会商品数据可视化分析系统 Flask框架 requests爬虫 Echarts可视化 数据清洗 大数据技术(源码+文档)✅
大数据·爬虫·python·信息可视化·spark·flask·唯品会
沧海寄馀生1 小时前
Apache Hadoop生态组件部署分享-Spark
大数据·hadoop·分布式·spark·apache
专注数据的痴汉1 小时前
「数据获取」中华人民共和国乡镇行政区划简册(2010-2017)(2011-2012缺失)
大数据·人工智能·信息可视化
专注数据的痴汉1 小时前
「数据获取」中国河流水系 2000 至 2022 年变化矢量数据集
大数据·人工智能·信息可视化
数据皮皮侠1 小时前
中国气候政策不确定性数据(2000-2022)
大数据·数据库·人工智能·信息可视化·微信开放平台