Elasticsearch 介绍
- Elasticsearch 是一个高度可扩展且开源的全文检索和分析引擎。可以快速且近实时地存储,检索以及分析海量数据。
Elasticsearch 应用场景:
-
提供搜索和自动完成功能。
-
ELK(Elasticsearch/Logstash/Kibana ),Logstash收集数据或日志,Elasticsearch聚合统计分析数据,Kibana可视化。
为什么不用Mysql?
- 为什么不用Mysql?
解答:Mysql在做模糊查询时,使用左模糊不会走索引,会遍历全表,速度比较慢。
Mysql数据库并不支持分词。
-
Elasticsearch搜索到的数据,是可以根据评分排序或过滤的。
-
Elasticsearch会对数据进行分词,支持相关性查询,不是完全准确的关键字也能搜出相关的结果
Elasticsearch底层
- Elasticsearch是基于倒排索引的。
倒排索引(Inverted index),也常被称为反向索引,被用来存储在全文搜索下某个单词在文档中的存储位置的映射。
它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
一、概念
- Index(索引) :
Elastic 数据管理的顶层单位就叫做 Index(索引)。类似单个数据库。
- Document(文档):
Index 里面单条的记录称为 Document(文档)。许多条 Document 构成了一个 Index。
相当于关系型数据库中的表中的一行记录。
Document 使用 JSON 格式表示。
- Type(类型):
Type其相当于关系型数据库中的表。
Document 可以分组。比如weather这个Index里面,可以按城市分组(北京和上海),也可以按气候分组。
这种分组就叫做 Type,它是虚拟的逻辑分组,用来过滤 Document。
不同的 Type 中同一个字段 应该有相似的结构(schema),举例来说,id字段不能在这个组是字符串,在另一个组是数值。这是与关系型数据库的表的一个区别。
Type是通过mapping定义的。mapping中主要包括字段名、字段数据类型和字段索引类型这3个方面的定义,相当于关系型数据库中的schema。
- Node 与 Cluster :
单个 Elastic 实例称为一个节点(node)。一组节点构成一个集群(cluster)。
- _shards(分片):
分片。每个索引有一个或多个分片,索引的数据被分配到各个分片上,分片有助于横向扩展,N个分片会被尽可能平均地(rebalance)分配在不同的节点上。
水平拓展,减小单个节点的压力,提高性能。
- replica(副本):
故障转移,容错。在 shard/node 故障的情况下提供了高可用性。
二、常用请求:
-
POST请求 :新建记录
-
PUT请求: 更新记录
PUT和POST的区别,详情见: https://www.cnblogs.com/zklidd/p/6114302.html
-
DELETE请求 :删除记录。
-
GET 请求:查看记录
三、常用命令
- es查询所有记录:
使用 GET 方法,直接请求/索引名称/类型名称/_search,就会返回所有记录。
- es根据id查询:
使用 GET 方法,直接请求 /索引名称/类型名称/文档Id。
GET 索引名称/类型名称/具体id
如果是在服务器中,也可以使用以下命令:
curl -XGET http://es集群ip:9200/索引名称/类型名称/具体id?pretty
- es查看所有索引:
以下的v是用来要求在结果中返回表头的.
GET /_cat/indices?v
- es新增记录:
向指定的 /索引名称/类型名称/ 发送 POST 请求,就可以在 Index 里面新增一条记录。比如,向/accounts/person发送请求,就可以新增一条人员记录。
POST /索引名称/类型名称/
示例如下:
POST /accounts/person
{
"name": "lin",
"date": "2020-10-24",
"order_hour": "08",
"day": "20201024",
"area": "广东"
}
也可以在服务器中,直接用curl去新增数据,示例如下:
curl -XPOST http://es集群ip:9200/accounts/person -d '{"name": "lin","date": "2020-10-24","order_hour": "08","day": "20201024","area": "广东"}'
-
es删除记录:
DELETE /索引名称/类型名称/具体的id
-
es新增索引:
PUT /book #put /book 代表put请求,含义是添加一个索引,book是索引名
{
"settings": { #settings指的是设置索引,库的属性
"number_of_replicas": 1 #number_of_replicas:是备份数量
, "number_of_shards": 5 #number_of_shards:是分片数量
}
,"mappings": { #mappings是映射的含义 mappings里面包含类型也就是表的定义;
"novel":{ #novel 是自定义的指的是类型名,相当于表名
"properties":{ #properties 是属性的意思;相当于里面放着表的属性也就是列名
"name":{ #name是表的其中一个字段;
"type":"text", #type是表中name这个字段的数据类型
"analyzer":"ik_max_word", #analyzer 表示分词的类型;
"index":true #index含义是是否要被检索到,默认是true
},
"author":{ # author是一个字段名;
"type":"keyword", #keyword 是这个字段的类型;
"index":true
},
"price":{
"type":"long",
"index":true
},
"pubdate":{
"type":"date", #pubdate 的格式是date,日期类型;
"index":true,
"format":"yyyy-MM-dd HH:mm:ss" #format指的是日期的格式类型;
},
"decr":{
"type":"text",
"index":true
},
"count":{
"type":"long",
"index":false
}
}
}
}
}
参考资料:https://blog.csdn.net/weixin_52578409/article/details/110493719
-
es新增字段:
格式如下:PUT /索引名称/_mapping/类型名称
{
"properties": {
"属性名称": {
"type": "long"
}
}
}
示例如下:
PUT /index_order/_mapping/type_order
{
"properties": {
"delivery15kg": {
"type": "long"
}
}
}
-
参数 pretty=true 表示以易读的格式返回。
GET 索引名称/_search?pretty=true
-
_search:
/_search:所有索引,所有type下的所有数据都搜索出来;
/索引名称/_search:指定一个index,搜索其下所有type的数据;
/索引名称1,索引名称2/_search:同时搜索两个index下的数据;
/*索引/_search:按照通配符星号去匹配多个索引;
/索引名称/类型名称/_search:搜索一个index下指定的type的数据;
/索引名称/类型名称1,类型名称2/_search:可以搜索一个index下多个type的数据;
/索引名称1,索引名称2/类型名称1,类型名称2/_search:搜索多个index下的多个type的数据;
/_all/类型名称1,类型名称2/_search:_all,可以代表搜索所有index下的指定type的数据;
-
es 查询索引的字段结构/数据结构
GET /索引名称/_mapping
-
es 添加/更新别名:
PUT /索引名称/_alias/别名名称
-
es 查询别名:
GET /索引名称/_alias
-
分页搜索的语法size:
GET /_search?size=10
GET /_search?size=10&from=0
GET /_search?size=10&from=20
四、返回内容:
格式如下:
{
"took": 80,
"timed_out": false,
"_shards": {
"total": 3,
"successful": 3,
"failed": 0
},
"hits": {
"total": 19,
"max_score": 1,
"hits": [
{
"_index": "order_dept",
"_type": "order_dept_hour",
"_id": "007",
"_score": 1,
"_source": {
"id": "20250816027R0030",
"dept_code": "020",
"order_date": "2025-08-27",
"order_num": 520,
"hour": "14"
}
}
}
具体的解释如下:
took字段表示该操作的耗时(单位为毫秒),timed_out字段表示是否超时,
hits字段表示命中的记录,里面子字段的含义如下。
* total:返回记录数,本例是2条。
* max_score:最高的匹配程度,本例是1.0。
* hits:返回的记录组成的数组。
* _score字段,表示匹配的程度,分值越高就代表越匹配。
* _source: 表示字段。
es 7.0 增删改查
es 7.0中只有索引和文档(记录),没有类型(type)了。
详情见: https://www.cnblogs.com/expiator/p/17480944.html
参考资料:
http://blog.itpub.net/29715045/viewspace-2653369/
https://blog.csdn.net/qq_29580525/article/details/80908523
https://www.cnblogs.com/ghj1976/p/5293250.html