Elasticsearch(面试篇)

目录

Elasticsearch的倒排索引是什么?

详细描述一下Elasticsearch更新和删除文档的过程

描述一下Elasticsearch搜索的过程


兄弟们一起加油 ! ! !

Elasticsearch的倒排索引是什么?

传统我们索引通过文章,逐个遍历找到对应关键词的位置。而倒排索引,是通过分成策略,形成了词和文章的映射关系表,这种词典+映射表即为倒排索引。有了倒排索引,就能实现O(1) 时间复杂度的效率检索文章了,极大的提高了检索效率。

详细描述一下Elasticsearch更新和删除文档的过程

  1. 删除和更新也都是写操作,但是Elasticsearch中的文档是不可变的,因此不能被删除或则改动以展示其变更;

  2. 磁盘上的每个段都有一个相应的 .del文件。当删除请求发送后,文档没有真的被删除而是在 .del文件中被标记为删除,新版本的文档被索引到一个新段。旧版本的文档依然能匹配查询,但是会在结果中被过滤掉。

描述一下Elasticsearch搜索的过程

  1. 搜索被执行成一个两阶段过程,我们称之为Query Then Fetch;

  2. 在初始查询阶段时,查询会广播到索引中每一个分片拷贝(主分或者副本分片)。每个分片在本地执行搜索并构建一个文档匹配的大小为from + size的优先队列

  3. 每个分片返回各自优先队列中所有文档的ID和排序值给协调节点,它合并这些值到自己的优先队列中来产生一个全局排序后的结果列表。

  4. 接下来就是 取回阶段,协调节点辨别出哪些文档需要被取回并向相关的分片体骄傲多个GET请求。每个分片加载并丰富文档,如果有需要的话,接着返回文档给协调节点。一旦所有的文档都被取回了,协调节点返回结果给客户端。

  5. 补充:Query Then Fetch 的搜索类型在文档相关性打分的时候参考的时本分片的数据,这样在文档数量较少的时候可能不够准确,DFS Query Then Fetch增加了一个预查询的处理,询问Term和Document frequency,这个评分更准确,但是性能会变差。

后续会继续增加该文章面试问题

相关推荐
B站计算机毕业设计之家4 分钟前
大数据项目:基于python电商平台用户行为数据分析可视化系统 电商订单数据分析 Django框架 Echarts可视化 大数据技术(建议收藏)
大数据·python·机器学习·数据分析·django·电商·用户分析
测试人社区—667915 分钟前
GPT-4开启“软件工程3.0“新时代:测试工程师的智能化转型指南
大数据
数据猿19 分钟前
【“致敬十年”系列】专访中国商联数据委会长邹东生:以“最小化场景闭环”实现AI真价值
大数据·人工智能
web3.088899922 分钟前
唯品会商品详情 API 数据解析
大数据
B站计算机毕业设计之家32 分钟前
大数据:基于python唯品会商品数据可视化分析系统 Flask框架 requests爬虫 Echarts可视化 数据清洗 大数据技术(源码+文档)✅
大数据·爬虫·python·信息可视化·spark·flask·唯品会
沧海寄馀生32 分钟前
Apache Hadoop生态组件部署分享-Spark
大数据·hadoop·分布式·spark·apache
专注数据的痴汉34 分钟前
「数据获取」中华人民共和国乡镇行政区划简册(2010-2017)(2011-2012缺失)
大数据·人工智能·信息可视化
专注数据的痴汉40 分钟前
「数据获取」中国河流水系 2000 至 2022 年变化矢量数据集
大数据·人工智能·信息可视化
数据皮皮侠44 分钟前
中国气候政策不确定性数据(2000-2022)
大数据·数据库·人工智能·信息可视化·微信开放平台
寒季6661 小时前
Flutter 智慧零售服务平台:跨端协同打造全渠道消费生态
大数据·人工智能