ElasticSearch 可观测性最佳实践

ElasticSearch 概述

ElasticSearch 是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理 PB 级别（大数据时代）的数据。ES 也使用 Java 开发并使用 Lucene 作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的 RestFul API 来隐藏 Lucene 的复杂性，从而让全文检索变得简单。

所以，ElasticSearch 的监控显得尤为重要，可以帮助我们进行性能优化、资源管理、容量规划、故障检测和预防，及时发现和解决问题，确保系统的高效和稳定运行。

实时性：ElasticSearch 能够实时地存储、检索和分析数据，使得用户能够快速获得最新的搜索结果和分析数据；
分布式：ElasticSearch 采用分布式架构，能够水平扩展，处理 PB 级结构化或非结构化数据，同时具有高可用性和容错性；
多样化的搜索和分析功能：ElasticSearch 支持全文搜索、结构化查询、过滤、地理空间查询和复杂的分析功能。

观测云

观测云是一个统一实时监测平台，它提供全面的系统可观测性解决方案，帮助用户快速实现对云平台、云原生、应用及业务的监控需求。观测云的核心功能包括：基础设施监测，日志采集和分析，用户访问监测（RUM），应用性能监测（APM），服务可用性监测（拨测），安全巡检，智能监控等等。

DataKit 提供 ElasticSearch 指标和日志的采集，安装好 DataKit 之后，开通 ElasticSearch 采集器，即可采集 ElasticSearch 指标和日志到观测云。

部署 DataKit

登录观测云控制台，点击「集成」 -「DataKit」 - 「Linux」，拷贝第 2 步中的安装命令。

安装完成后，DataKit 会提示您使用 datakit monitor 来检查 DataKit 的运行状态，如下图所示：

采集器配置

指标采集配置

Tips: ElasticSearch 版本 >= 6.0.0

适用于虚拟机部署的 ElasticSearch 监控，使用主机安装方式安装 DataKit 后，在 /usr/local/datakit/conf.d/db 目录下，复制 elasticsearch.conf.sample 为 elasticsearch.conf。

ini 复制代码

# 根据实际情况进行修改，如果有账号密码，可进行如下配置
servers = ["http://user:pass@localhost:9200"]
# 若账号密码有特殊字符，也可以在这里添加账号密码
  # HTTP Basic Authentication
   username = "xxx"
   password = "yyy"
   
# 重启DK
datakit service -R

日志采集配置

采集 ElasticSearch 的日志，可在 elasticsearch.conf 中将 files 打开，并写入 ElasticSearch 日志文件的绝对路径。

lua 复制代码

[[inputs.elasticsearch]]
  ...
[inputs.elasticsearch.log]
files = ["/path/to/your/file.log"]

开启日志采集以后，默认会产生日志来源（source）为 elasticsearch 的日志。

执行 datakit monitor 显示如下：

关键指标

指标	描述	单位
status_code	集群状态	count
os_cpu_percent	集群CPU使用率	count
os_mem_used_percent	集群内存使用率	count
jvm_mem_heap_used_percent	集群堆内存使用率	count
number_of_data_nodes	数据节点	count
number_of_pending_tasks	待处理任务数	count
active_primary_shards	活跃主分片	count
active_shards	活跃分片	count
initializing_shards	初始化中分片	count
relocating_shards	迁移中的分片	count
indices_lifecycle_error_count	错误状态索引	count
unassigned_shards	未分配的分片	count
primaries_docs_count	主分片文档数量	count
primaries_docs_deleted	主分片已删除文档数量	count
total_docs_count	文档数量	count
total_docs_deleted	已删除文档数量	count
total_flush_total_time_in_millis	flush总时间	ms
total_refresh_total	flush总数	count
total_store_size_in_bytes	存储大小	B
total_merges_current_docs	当前正在运行的文档合并数	count
total_merges_total_docs	合并文档的总数	count
total_indexing_index_current	当前正在运行的索引操作数	count
total_indexing_index_total	索引操作的总数	count
total_search_query_current	当前查询数	count
total_search_query_total	总查询数	count
total_search_query_time_in_millis	执行查询操作花费时间	ms
total_search_fetch_time_in_millis	执行获取操作花费时间	ms