elasticsearch CPU居高不下的问题排查

elasticsearch CPU居高不下的问题排查

问题发现

某天早上收到钉钉消息,ES集群CPU负载很高,赶快上控制台看了一下发现都飚到90多了,下面的图片是算的一段时间的平均值,所以显示CPU使用80左右,实际上很长一段时间都是90多了

问题排查

首先先看了一下查询写入的QPS,发现并没有特别高,接着看了一下那段时间的慢查询,因为是用的阿里云的ES服务,所以在控制台用下面的语句就能查询3s以上的慢查询了。查询后发现下面的has_child子文档查询很多,由此可以判断出应该是某个业务场景使用了大量的子文档查询。

vbnet 复制代码
search_time_ms: [3000.0 TO *]

问题解决

排查了一下业务代码,发现有一处使用多线程进行了子文档查询,查询的数据比较少的时候还能抗住,这也是当时测试能通过的原因。但是今天查询的数据量很大的时候就崩溃了,然后紧急修复了业务代码,去掉了多线程。

但是现在还有一个问题,怎么快速把ES的CPU降下去,减少对线上的影响? 了解得知,可以通过kill掉比较耗CPU的任务来实现,命令如下

查询对应的任务: actions=search是过滤出与索引搜索相关的任务

ini 复制代码
GET _tasks?detailed=true&actions=search

然后取消掉对应的任务就好了:

javascript 复制代码
POST _tasks/<task_id名>:<任务ID号>/_cancel

问题总结

个人认为,如果ES有相应的高性能计算节点,子文档查询可以使用,但是在集群性能不高的情况下,子文档查询还是尽量避免使用吧,因为这种子文档查询在大批量或者多线程的查询下很容易就会导致CPU飙升,这种的风险还是挺高的。除了子文档其实还有其他的解决方案,例如在数据层面进行处理,冗余相应的字段,也可以做到子文档的效果

相关推荐
知秋正在9962 小时前
ElasticSearch服务端报错:Unrecognized VM option ‘UseAVX=2‘
大数据·elasticsearch·jenkins
Wang's Blog2 小时前
Elastic Stack梳理: ElasticSearch分页与遍历技术深度解析与工程实践
大数据·elasticsearch·搜索引擎
Elastic 中国社区官方博客3 小时前
Elastic 与 Accenture 在 GenAI 数据准备方面的合作
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·aws
武子康4 小时前
大数据-173 Elasticsearch 映射与文档增删改查实战(基于 7.x/8.x)JSON
大数据·后端·elasticsearch
jiayong234 小时前
Elasticsearch 分词器完全指南:原理、类型与实战
大数据·elasticsearch·搜索引擎
007php0076 小时前
Elasticsearch经典面试题案例分析
redis·elasticsearch·搜索引擎·面试·职场和发展·全文检索·jenkins
safestar20126 小时前
Elasticsearch与SelectDB的正面对决:日志分析场景的架构深度调优与选型指南
大数据·elasticsearch·架构
Elastic 中国社区官方博客1 天前
用 Elasticsearch 构建一个 ChatGPT connector 来查询 GitHub issues
大数据·人工智能·elasticsearch·搜索引擎·chatgpt·github·全文检索
武子康1 天前
大数据-172 Elasticsearch 索引操作与 IK 分词器落地实战:7.3/8.15 全流程速查
大数据·后端·elasticsearch
Elasticsearch1 天前
Elastic 与 Accenture 在 GenAI 数据准备方面的合作
elasticsearch