分布式搜索elasticsearch概念

Crhy、Y2023-12-24 19:14

什么是elasticsearch？

elasticsearch是一款非常强大的开源搜索引擎，可以帮助我们从海量数据中快速找到需要的内容

elasticsearch的场景

elasticsearch的场景

elasticsearch结合kibana、Logstash、Beats，也就是elastic stack (ELK)。被广泛应用在日志数据分析、实时监控等领域。

elasticsearch是elastic stack的核心，负责存储、搜索、分析数据

elasticsearch的发展

Lucene篇

Lucene是一个ava语言的搜索引擎类库，是Apache公司的顶级项目，由DougCutting于1999年研发。

官网地址: https://lucene.apache.org/

Lucene的优势:

易扩展
高性能(基于倒排索引)

Lucene的缺点:

只限于Java语言开发
学习曲线陡峭
不支持水平扩展

Elasticsearch篇

2004年ShayBanon基于Lucene开发了Compass。

2010年shay Banon 重写了Compass，取名为Elasticsearch。

目前最新的版本是:7.12.1

官网地址: https://www.elastic.co/cn/

相比与lucene，elasticsearch具备下列优势:

支持分布式，可水平扩展
提供Restful接口，可被任何语言调用

正排索引与倒排索引(Elasticsearch)

传统数据库(如MySQL)采用正向索引，例如给下表(tb goods)中的id创建索引

搜索'title'字段，'手机' 的内容 👉 select *from tb_goods where title like %手机%

正排索引：当模糊查询某字段时会逐一检索所有记录，效率较低

elasticsearch采用倒排索引

文档(document)：每条数据就是一个文档（相对于Mysql，一个mysql表就是一个文档）
词条(term)：文档按照语义分成的词语（记录文档中的关键词）

例：搜索'华为手机'（根据索引查询效率增加）

什么是文档和词条?

每一条数据就是一个文档

对文档中的内容分词，得到的词语就是词条

什么是正向索引?

基于文档id创建索引。查询词条时必须先找到文档，而后判断是否包

含词条

什么是倒排索引?

对文档内容分词，对词条创建索引，并记录词条所在文档的信息。查询时先根据词条查询到文档id，而后获取到文档

分布式搜索elasticsearch概念

elasticsearch的场景

elasticsearch的发展

Lucene篇

Elasticsearch篇

正排索引 与 倒排索引(Elasticsearch)

正排索引与倒排索引(Elasticsearch)