AutoOps:简化自管理 Elasticsearch 的旅程

作者:来自 Elastic Ori Shafir

探索 AutoOps 用于自管理 Elasticsearch。我们将展示它的价值、如何设置,以及它提供的洞察。

动手体验 Elasticsearch:浏览我们的示例 notebook,开启免费的 cloud 试用,或立即在本地机器上试用 Elastic。


介绍用于自管理 Elasticsearch 的 AutoOps,它让 Elasticsearch 更易管理。本篇博客不是传统的技术功能介绍,而是从 DevOps 工程师的角度展示它的价值、如何设置,以及它提供的洞察 ------ 因为 AutoOps 的真正价值最好体现在日常大规模管理 Elasticsearch 的工作中。

第 1 章:背景 ------ 大规模自管理的复杂性

操作任何大规模自管理的数据平台都可能很复杂。

有时查询速度快如闪电,有时数据摄取滞后,存储成本飙升。这基本上就像管理一个动物园,只不过动物会在凌晨 3 点给你发通知。

我的环境也不例外:多个集群、繁重的跨集群搜索(CCS),以及来自各部门的数百名用户。

我们使用 Stack Monitoring 进行日常运维。它提供图表和指标,但仍然需要大量专业知识和时间来将信息串联起来。诊断瓶颈或确定何时调整 shard 策略仍是一个手动且容易出错的过程。在许多情况下,问题往往在造成宕机、性能下降或意外存储飙升之前都不会被发现。

第 2 章:发现 AutoOps

随后宣布了消息:AutoOps 现在可用于自管理集群。

AutoOps 长期以来一直帮助 Elastic Cloud 用户更高效地管理部署。现在,这些好处也对任何在自己环境中运行 Elasticsearch 的人开放。

AutoOps 的亮点非常诱人:

  • 实时检测摄取瓶颈、shard 不平衡、慢查询等问题

  • 根据集群配置提供可执行的推荐

  • 资源优化洞察,提高效率并减少浪费开支

  • 通过安装轻量级 agent 简单设置 ------ 无需额外基础设施

说实话,任何承诺 "无需额外基础设施" 的东西都能完全吸引我的注意。

第 3 章:五分钟完成设置(真的)

我给下午留了空,准备好咖啡,做好长时间设置的准备。但出乎意料,只花了五分钟:

  • 登录我的 Elastic Cloud 账户

  • 决定 agent 的运行位置(Docker、Linux 或 Kubernetes)

  • 输入集群 URL

  • 执行一个命令,安装轻量级 Metricbeat agent

就这样,我的集群就连接上了。

无需专门的监控集群。更重要的是,AutoOps 只发送指标,这意味着公司的数据仍保留在自管理环境中。

步骤 1:注册 Elastic Cloud

步骤 2:选择 Agent 的运行位置

步骤 3:输入你的 Elasticsearch 端点及认证方式

步骤 4:使用简单命令安装 Agent

就这样:几分钟后,AutoOps 就会开始显示洞察。

更多细节请参考 AutoOps 入门文档常见问题解答

第 4 章:初次洞察,首个胜利

几分钟内,AutoOps 就开始提供洞察,给出根因分析和清晰的修复步骤。

第一周的亮点包括:

  • 标记未附加任何 ILM 策略且过大的索引

  • 一个集群中有三个空节点,遗留自之前的维护任务

  • 一些节点超过水位线,且有几个索引缺少副本

  • 发现一个配置错误的模板

  • 精确定位一个长时间运行的搜索,并建议了取消的具体命令

AutoOps 检测到集群正在拒绝索引操作:

AutoOps 检测到一些索引未配置副本

在使用 AutoOps 之前,我们通常会为这些问题增加更多硬件。相反,AutoOps 直接指出了根本原因,修复只花了几分钟。

这一次,监控系统不仅仅是展示图表 ------ 它告诉我如何解决问题。我开始想,AutoOps 是否也能帮我诊断家庭 Wi-Fi,让我终于不用再充当家里的 IT 部门......

AutoOps 监控 shard 大小,并在出现大量空 shard 时发出警报

第 5 章:看到我所看到的支持

第一次提交支持工单时,我意识到另一个好处:Elastic Support 工程师可以看到我正在查看的相同数据和推荐。

这让支持变成了协作。与其在工单中来回沟通,不如像与一位对 Elasticsearch 了如指掌的队友一起工作。

第 6 章:大规模运维

在使用 AutoOps 之前,扩展 Elasticsearch 感觉像是科学、直觉和经验的混合。

现在它是数据驱动的,具有清晰的可见性和推荐:

  • 可见资源使用情况,防止过度配置

  • 更智能的 shard 分配和分层推荐,实现性能平衡

  • 索引大小洞察,减少存储和硬件浪费

  • 跨多个集群更快的根因分析

第 7 章:众多 Cloud Connected Services 的开端

AutoOps 不只是一个独立工具。它是为自管理客户推出的新一系列 Cloud Connected Services 的第一款。Cloud Connect 使自管理集群能够使用 Elastic Cloud 服务,而无需在自身环境中安装和管理这些服务。功能会自动推出,让团队以更少的基础设施复杂性更快获得改进。

下一步:Elastic Inference Service (EIS)。

结语

管理大规模自管理部署不必让人不堪重负。

如果你希望操作更简单,也可以将部分工作负载迁移到 Elastic Cloud,无论是 Hosted 还是 Serverless,这是运行 Elasticsearch 最简单的方式。

如果你想继续自管理,可以将任何拥有自管理 Enterprise 许可证的集群连接到 Elastic Cloud 的 AutoOps

TLDR

运行大型自管理 Elasticsearch 集群复杂且耗时。AutoOps 提供实时问题检测、可执行的推荐,以及与 Elastic Support 的共享可见性 ------ 无需管理额外基础设施。设置只需几分钟,洞察会立即显示。

原文:https://www.elastic.co/search-labs/blog/elastic-autoops-self-managed-elasticsearch

相关推荐
学历真的很重要6 小时前
VsCode+Roo Code+Gemini 2.5 Pro+Gemini Balance AI辅助编程环境搭建(理论上通过多个Api Key负载均衡达到无限免费Gemini 2.5 Pro)
前端·人工智能·vscode·后端·语言模型·负载均衡·ai编程
普通网友6 小时前
微服务注册中心与负载均衡实战精要,微软 2025 年 8 月更新:对固态硬盘与电脑功能有哪些潜在的影响。
人工智能·ai智能体·技术问答
苍何6 小时前
一人手搓!AI 漫剧从0到1详细教程
人工智能
苍何6 小时前
Gemini 3 刚刷屏,蚂蚁灵光又整活:一句话生成「闪游戏」
人工智能
苍何6 小时前
越来越对 AI 做的 PPT 敬佩了!(附7大用法)
人工智能
苍何6 小时前
超全Nano Banana Pro 提示词案例库来啦,小白也能轻松上手
人工智能
阿杰学AI7 小时前
AI核心知识39——大语言模型之World Model(简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·世界模型·world model·sara
摇滚侠7 小时前
ElasticSearch 教程入门到精通,文档创建查询修改删除,笔记10、11、12
笔记·elasticsearch
智慧地球(AI·Earth)7 小时前
Vibe Coding:你被取代了吗?
人工智能
大、男人8 小时前
DeepAgent学习
人工智能·学习