Elasticsearch学习

1、什么是Elasticsearch?

Elaticsearch,简称为 ESES 是一个开源的高扩展的分布式全文搜索引擎 , 是整个 ElasticStack 技术栈的核心。可以帮助我们从海量数据中快速找到需要的内容。

elasticsearch结合kibana、Logstash、Beats,也就是elastic stack(ELK)。被广泛应用在日志数据分析、实时监控等领域

ES底层是基于Lucene,Lucene是一个Java语言的搜索引擎类库,但是这个类库只支持java,学习复杂。ES通过简单的RESTfulAPI来隐藏Lucene的复杂性,从而让全文搜索变得简单。

2、为什么要有ES?

数据存储大致可分为结构化数据和非结构化数据

结构化数据是指可以使用关系型数据库 表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。

非结构化数据就是没有固定结构的数据 。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。

从字面理解,关系型数据库主要的功能是存储而不是搜索,搜索只是顺便提供的功能。

而搜索引擎主要功能在于搜索,存储只是过程不是目的。

关系型数据库进行精确搜索可以胜任,但是针对模糊搜索,性能就比较差了,尤其是数据量大的时候。但是模糊搜索或者是相关性搜索才是人们用的更多的搜索,所以才有了ES的存在。

底层实现:

Mysql基于B+树索引,来实现快速检索,ES则基于倒排索引,对于文档搜索来说,倒排索引在性能和空间上都有更加明显的优势。

3、ES的历史

2004年Shay Banon基于Lucene开发了Compass

2010年Shay Banon 重写了Compass,取名为Elasticsearch。

官网地址: https://www.elastic.co/cn/

相比与lucene,elasticsearch具备下列优势:

  • 支持分布式,可水平扩展
  • 提供Restful接口,可被任何语言调用

4、什么是倒排索引

正向索引:像mysql中存储的形式,他们基于一条数据的id创建索引,当进行查询时,先找到这一条数据,然后判断数据中是否有想查询的内容

倒排索引:数据库中记录的都是对文档内容分词后的词条,针对词条创建索引,并且记录词条所在文档的信息,查询时现根据词条查询到文档id,然后获取到文档。

关于倒排索引理解可参考https://www.cnblogs.com/fengfengyang/p/16704685.html

比如用户要搜索华为手机,可以将华为和手机进行分词,分词后,根据词条查询包含这两个词的文档id,然后根据文档id查询到文档,最后经过去重,就可以得到搜索结果。

倒排索引中包含两部分:

1、词条字典:记录所有的词条,以及词条与倒排列表之间的关系,会给词条创建索引,提高查询和插入效率

2、倒排列表:记录词条所在的文档id、词条出现频率、词条出现位置等信息

文档id:用于快速获取文档

词条频率: 词条在文档中出现的次数,用于评分(频率高的可能搜索结果靠前)

5、ES中的一些概念

ES与Mysql中概念比对

索引(index):相同类型的文档的集合,比如商品信息索引,订单信息索引,人员信息索引

文档:索引中存储的每一条数据叫做一条文档,文档数据会被序列化为json格式后存储在elasticsearch中

字段:文档中的字段,也就是JSON中的每一个字段

映射:索引中文档的约束,包括字段类型的约束等

操作语句:DSL,JSON风格的请求语句,用来实现增删改查等操作

相关推荐
寒秋花开曾相惜1 天前
(学习笔记)4.1 Y86-64指令集体系结构(4.1.4 Y86-64异常&4.1.5 Y86-64程序)
开发语言·jvm·数据结构·笔记·学习
莹宝思密达1 天前
【AI学习】 playwright-cli + SKILL 替换 chrom-devTools-MCP
学习
cyr___1 天前
Unity教程(二十七)技能系统 黑洞技能(下)黑洞状态
学习·游戏·unity·游戏引擎
TechubNews1 天前
Base 发布首个独立 OP Stack 框架的网络升级 Azul,将是 L2 自主迭代的开端?
大数据·网络·人工智能·区块链·能源
金融小师妹1 天前
AI政策框架解析:凯文·沃什货币体系重构与美联储治理范式转型
大数据·人工智能·重构·逻辑回归
多年小白1 天前
中科院 Ouroboros 晶圆级存算一体芯片深度解析
大数据·网络·人工智能·科技·ai
SelectDB1 天前
从 T+1 到分钟级:金城银行基于 Apache Doris 构建高可靠、强一致的实时数据平台
大数据·数据库·数据分析
夜瞬1 天前
Git工作流程与常用指令——从本地开发到远程协作
大数据·git·elasticsearch
豆瓣鸡1 天前
Gradle学习
学习
海绵宝宝的月光宝盒1 天前
2-非金属材料
经验分享·笔记·学习·其他·职场和发展·课程设计·制造