elasticSearch之API:基础命令及文档基本操作

文章目录

一、基本检索

1、cat API

bash 复制代码
/_cat/allocation         #查看单节点的shard分配整体情况
/_cat/shards          #查看各shard的详细情况
/_cat/shards/{index}     #查看指定分片的详细情况
/_cat/master          #查看master节点信息
/_cat/nodes           #查看所有节点信息
/_cat/indices         #查看集群中所有index的详细信息
/_cat/indices/{index}      #查看集群中指定index的详细信息
/_cat/segments        #查看各index的segment详细信息,包括segment名, 所属shard, 内存(磁盘)占用大小, 是否刷盘
/_cat/segments/{index}#查看指定index的segment详细信息
/_cat/count           #查看当前集群的doc数量
/_cat/count/{index}   #查看指定索引的doc数量
/_cat/recovery        #查看集群内每个shard的recovery过程.调整replica。
/_cat/recovery/{index}#查看指定索引shard的recovery过程
/_cat/health          #查看集群当前状态:红、黄、绿
/_cat/pending_tasks   #查看当前集群的pending task
/_cat/aliases         #查看集群中所有alias信息,路由配置等
/_cat/aliases/{alias} #查看指定索引的alias信息
/_cat/thread_pool     #查看集群各节点内部不同类型的threadpool的统计信息,
/_cat/plugins         #查看集群各个节点上的plugin信息
/_cat/fielddata       #查看当前集群各个节点的fielddata内存使用情况
/_cat/fielddata/{fields}     #查看指定field的内存使用情况,里面传field属性对应的值
/_cat/nodeattrs              #查看单节点的自定义属性
/_cat/repositories           #输出集群中注册快照存储库
/_cat/templates              #输出当前正在存在的模板信息

2、索引文档初探

在7.0之前,一个 Index可以设置多个Types

目前Type已经被Deprecated,7.0开始,一个索引只能创建一个Type - "_doc"

传统关系型数据库和Elasticsearch的区别:

Elasticsearch- Schemaless /相关性/高性能全文检索

RDMS ---事务性/ Join

索引(Index)
一个索引就是一个拥有几分相似特征的文档的集合。比如说,可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。
一个索引由一个名字来标识(必须全部是小写字母的),并且当我们要对对应于这个索引中的文档进行索引、搜索、更新和删除的时候,都要使用到这个名字。

文档(Document)

Elasticsearch是面向文档的,文档是所有可搜索数据的最小单位。

日志文件中的日志项

一本电影的具体信息/一张唱片的详细信息

MP3播放器里的一首歌/一篇PDF文档中的具体内容

文档会被序列化成JSON格式,保存在Elasticsearch中

JSON对象由字段组成

每个字段都有对应的字段类型(字符串/数值/布尔/日期/二进制/范围类型)

每个文档都有一个Unique ID

可以自己指定ID或者通过Elasticsearch自动生成

一篇文档包含了一系列字段,类似数据库表中的一条记录

JSON文档,格式灵活,不需要预先定义格式

字段的类型可以指定或者通过Elasticsearch自动推算

支持数组/支持嵌套

元数据,用于标注文档的相关信息:
_index:文档所属的索引名

_type:文档所属的类型名

_id:文档唯---ld
_source: 文档的原始Json数据

_version: 文档的版本号,修改删除操作_version都会自增1

_seq_no: 和_version一样,一旦数据发生更改,数据也一直是累计的。Shard级别严格递增,保证后写入的Doc的_seq_no大于先写入的Doc的_seq_no。

_primary_term: _primary_term主要是用来恢复数据时处理当多个文档的_seq_no一样时的冲突,避免Primary Shard上的写入被覆盖。每当Primary Shard发生重新分配时,比如重启,Primary选举等,_primary_term会递增1。

二、文档操作

1、示例数据

bash 复制代码
# 索引 我们这里用standard ,没装ik
PUT /es_db
{
    "settings" : {
        "index" : {
            "analysis.analyzer.default.type": "ik_max_word"
        }
    }
}

PUT /es_db/_doc/1
{
	"name": "张三",
	"sex": 1,
	"age": 25,
	"address": "广州天河公园",
	"remark": "java developer"
}
PUT /es_db/_doc/2
{
	"name": "李四",
	"sex": 1,
	"age": 28,
	"address": "广州荔湾大厦",
	"remark": "java assistant"
}

PUT /es_db/_doc/3
{
	"name": "王五",
	"sex": 0,
	"age": 26,
	"address": "广州白云山公园",
	"remark": "php developer"
}

PUT /es_db/_doc/4
{
	"name": "赵六",
	"sex": 0,
	"age": 22,
	"address": "长沙橘子洲",
	"remark": "python assistant"
}

PUT /es_db/_doc/5
{
	"name": "张龙",
	"sex": 0,
	"age": 19,
	"address": "长沙麓谷企业广场",
	"remark": "java architect assistant"
}	
	
PUT /es_db/_doc/6
{
	"name": "赵虎",
	"sex": 1,
	"age": 32,
	"address": "长沙麓谷兴工国际产业园",
	"remark": "java architect"
}	

2、添加(索引)文档

注意:post没有幂等性,put有幂等性。

格式: [PUT | POST] /索引名称/[_doc | _create ]/id

bash 复制代码
# 创建文档,指定id
# 如果id不存在,创建新的文档,否则先删除现有文档,再创建新的文档,版本会增加
PUT /es_db/_doc/1
{
	"name": "张三",
	"sex": 1,
	"age": 25,
	"address": "广州天河公园",
	"remark": "java developer"
}	

#创建文档,ES生成id
POST /es_db/_doc
{
	"name": "张三",
	"sex": 1,
	"age": 25,
	"address": "广州天河公园",
	"remark": "java developer"
}


注意:POST和PUT都能起到创建/更新的作用,PUT需要对一个具体的资源进行操作也就是要确定id才能进行更新/创建,而POST是可以针对整个资源集合进行操作的,如果不写id就由ES生成一个唯一id进行创建新文档,如果填了id那就针对这个id的文档进行创建/更新

Create -如果ID已经存在,会失败

3、修改文档

(1)PUT 全量更新

PUT 全量更新,整个json都会替换,格式: [PUT | POST] /索引名称/_doc/id
如果文档存在,现有文档会被删除,新的文档会被索引

bash 复制代码
# 全量更新,替换整个json
PUT /es_db/_doc/1
{
	"name": "张三",
	"sex": 1,
	"age": 25
}

#查询文档
GET /es_db/_doc/1

(2)使用_update部分更新

使用_update部分更新,格式: POST /索引名称/_update/id
update不会删除原来的文档,而是实现真正的数据更新

bash 复制代码
# 部分更新:在原有文档上更新
# Update -文档必须已经存在,更新只会对相应字段做增量修改
POST /es_db/_update/1
{
  "doc": {
    "age": 28
  }
}

#查询文档
GET /es_db/_doc/1

(3)使用 _update_by_query 更新文档

bash 复制代码
POST /es_db/_update_by_query
{
  "query": { 
    "match": {
      "_id": 1
    }
  },
  "script": {
    "source": "ctx._source.age = 30"
  }
}

(4)并发场景下修改文档

_seq_no和_primary_term是对_version的优化,7.X版本的ES默认使用这种方式控制版本,所以当在高并发环境下使用乐观锁机制修改文档时,要带上当前文档的_seq_no和_primary_term进行更新

bash 复制代码
POST /es_db/_doc/2?if_seq_no=21&if_primary_term=6
{
  "name": "李四xxx"
}

如果版本号不对,会抛出版本冲突异常,如下图:

4、查询文档

(1)根据id查询

根据id查询文档,格式: GET /索引名称/_doc/id

bash 复制代码
GET /es_db/_doc/1

(2)条件查询 - 请求url方式

条件查询 _search,格式: /索引名称/_doc/_search

bash 复制代码
# 查询前10条文档
GET /es_db/_doc/_search

ES Search API提供了两种条件查询搜索方式:

REST风格的请求URI,直接将参数带过去

封装到request body中,这种方式可以定义更加易读的JSON格式

bash 复制代码
#通过URI搜索,使用"q"指定查询字符串,"query string syntax" KV键值对

#条件查询, 如要查询age等于28岁的 _search?q=*:***
GET /es_db/_doc/_search?q=age:28

#范围查询, 如要查询age在25至26岁之间的 _search?q=***[** TO **]  注意: TO 必须为大写
GET /es_db/_doc/_search?q=age[25 TO 26]

#查询年龄小于等于28岁的 :<=
GET /es_db/_doc/_search?q=age:<=28
#查询年龄大于28前的 :>
GET /es_db/_doc/_search?q=age:>28

#分页查询 from=*&size=*
GET /es_db/_doc/_search?q=age[25 TO 26]&from=0&size=1

#对查询结果只输出某些字段 _source=字段,字段
GET /es_db/_doc/_search?_source=name,age

#对查询结果排序 sort=字段:desc/asc
GET /es_db/_doc/_search?sort=age:desc

(3)条件查询 - 请求体方式(复杂查询)

通过请求体的搜索方式(此处就不详细介绍,各种复杂查询)

bash 复制代码
GET /es_db/_search
{
  "query": {
    "match": {
      "address": "广州白云"
    }
  }
}

5、删除文档

格式: DELETE /索引名称/_doc/id

bash 复制代码
DELETE /es_db/_doc/1

6、文档批量操作

批量操作可以减少网络连接所产生的开销,提升性能
支持在一次API调用中,对不同的索引进行操作

可以在URI中指定Index,也可以在请求的Payload中进行
操作中单条操作失败,并不会影响其他操作

返回结果包括了每一条操作执行的结果

(1)批量写入

批量对文档进行写操作是通过_bulk的API来实现的

请求方式:POST

请求地址:_bulk

请求参数:通过_bulk操作文档,一般至少有两行参数(或偶数行参数)

第一行参数为指定操作的类型及操作的对象(index,type和id)

第二行参数才是操作的数据

参数类似于:

bash 复制代码
{"actionName":{"_index":"indexName", "_type":"typeName","_id":"id"}}
{"field1":"value1", "field2":"value2"}

actionName:表示操作类型,主要有create,index,delete和update

bash 复制代码
# 批量创建文档create
POST _bulk
{"create":{"_index":"article", "_type":"_doc", "_id":3}}
{"id":3,"title":"张三","content":"张三666","tags":["java", "面向对象"],"create_time":1554015482530}
{"create":{"_index":"article", "_type":"_doc", "_id":4}}
{"id":4,"title":"李四","content":"李四NB","tags":["java", "面向对象"],"create_time":1554015482530}

# 普通创建或全量替换index
# 如果原文档不存在,则是创建
# 如果原文档存在,则是替换(全量修改原文档)
POST _bulk
{"index":{"_index":"article", "_type":"_doc", "_id":3}}
{"id":3,"title":"王五","content":"王五老师666","tags":["java", "面向对象"],"create_time":1554015482530}
{"index":{"_index":"article", "_type":"_doc", "_id":4}}
{"id":4,"title":"诸葛","content":"诸葛NB","tags":["java", "面向对象"],"create_time":1554015482530}

# 批量删除delete
POST _bulk
{"delete":{"_index":"article", "_type":"_doc", "_id":3}}
{"delete":{"_index":"article", "_type":"_doc", "_id":4}}

# 批量修改update
POST _bulk
{"update":{"_index":"article", "_type":"_doc", "_id":3}}
{"doc":{"title":"ES大法必修内功"}}
{"update":{"_index":"article", "_type":"_doc", "_id":4}}
{"doc":{"create_time":1554018421008}}

# 组合应用
POST _bulk
{"create":{"_index":"article", "_type":"_doc", "_id":3}}
{"id":3,"title":"cxf老师","content":"cxf老师666","tags":["java", "面向对象"],"create_time":1554015482530}
{"delete":{"_index":"article", "_type":"_doc", "_id":3}}
{"update":{"_index":"article", "_type":"_doc", "_id":4}}
{"doc":{"create_time":1554018421008}}

bulk API 以此按顺序执行所有的 action(动作)。如果一个单个的动作因任何原因而失败, 它将继续处理它后面剩余的动作。当 bulk API 返回时,它将提供每个动作的状态(与发送 的顺序相同),所以您可以检查是否一个指定的动作是不是失败了。

(2)批量读取

es的批量查询可以使用mget和msearch两种。其中mget是需要我们知道它的id,可以指定不同的index,也可以指定返回值source。msearch可以通过字段查询来进行一个批量的查找。

_mget:

bash 复制代码
#可以通过ID批量获取不同index和type的数据
GET _mget
{
	"docs": [
		{
			"_index": "es_db",
			"_id": 1
		},
		{
			"_index": "article",
			"_id": 4
		}
	]
}

#可以通过ID批量获取es_db的数据
GET /es_db/_mget
{
	"docs": [
		{
			"_id": 1
		},
		{
			"_id": 4
		}
	]
}
#简化后
GET /es_db/_mget 
{
 "ids":["1","2"]  
 }

_msearch:

在_msearch中,请求格式和bulk类似。查询一条数据需要两个对象,第一个设置index和type,第二个设置查询语句。查询语句和search相同。如果只是查询一个index,我们可以在url中带上index,这样,如果查该index可以直接用空对象表示。

bash 复制代码
GET /es_db/_msearch
{}
{"query" : {"match_all" : {}}, "from" : 0, "size" : 2}
{"index" : "article"}
{"query" : {"match_all" : {}}}
相关推荐
l1t2 小时前
DeepSeek辅助生成的PostgreSQL 查询优化实战幻灯片脚本
大数据·数据库·postgresql
heimeiyingwang3 小时前
企业级知识库构建:从数据清洗到向量检索
大数据·人工智能·机器学习
globaldomain3 小时前
立海世纪:.com和.net域名哪个更适合你的网站
大数据·前端·人工智能·新媒体运营·国外域名·域名注册
媒体人8883 小时前
孟庆涛:生成式引擎优化(GEO)的投毒攻击防御策略研究
大数据·人工智能·搜索引擎·生成式引擎优化·geo优化
志栋智能3 小时前
AI驱动的自动化运维机器人:从“数字劳动力”到“智能协作者”的进化
大数据·运维·网络·人工智能·机器人·自动化
AI周红伟3 小时前
周红伟:2026年10个AI预言:迈向AGI通用人工智能体时代
大数据·人工智能·机器学习·大模型·agi·智能体·seedance
systeminof4 小时前
折叠屏竞争进入新阶段:三星新品对标苹果Fold战略
大数据
阿杰学AI4 小时前
AI核心知识109—大语言模型之 Industry Agent Operations Specialist(简洁且通俗易懂版)
大数据·人工智能·ai·语言模型·agent·智能体·行业智能体运营师
志栋智能5 小时前
智能巡检自动化解决方案:从“人海战术”到“AI智巡”的效能革命
大数据·运维·人工智能·网络安全·云原生·自动化