作者:来自 Elastic 官方博客
Elastic Observability 快速、简单且面向未来!
世界各地的企业都面临着充满挑战的环境:成本压力增加,加上复杂的分布式云原生环境生成的大量数据。 因此,团队需要从任何地方即时对所有数据进行更智能的分析、访问和保留,以解决问题、做出决策并确保弹性。
许多公司已经采用了 Splunk Enterprise,并且需要做出选择,因为 Splunk 提供了多种具有不同定价模型的 Splunk Enterprise、Splunk Cloud 和 Splunk Observability 解决方案。 Splunk 是作为日志记录平台构建的,并随着时间的推移添加了其他功能。
Elastic® 提供快速、简单的解决方案,帮助公司面向未来。 现代应用程序和运营团队正在通过 Elastic Observability 寻求自由、灵活性和加速生产力。 原因如下。
由基于人工智能的搜索分析平台提供支持
Elastic 是一个搜索分析平台,允许使用生成式 AI 大规模摄取、索引和分析任何数据(日志、指标、跟踪、安全事件等)。
Elastic 的搜索分析平台是使用 Elasticsearch 相关性引擎 (ESRE) 构建的。 ESRE 将人工智能的优点与 Elastic 的文本搜索相结合。 Elastic 的搜索分析平台处理数据并将其存储在 Elastic 的向量数据库中。 Elastic 的学习稀疏编码器 (ELSER) 模型可在大容量和低延迟的情况下提供开箱即用的高度相关语义搜索。
此外,ESRE 还提供了一整套复杂的检索算法以及与 OpenAI 等大型语言模型 (LLM) 集成的能力。 这可以加速问题解决、改进业务数据分析并提高运营生产力。
这些创新不仅提供了快速、上下文相关的分析搜索,还提供了大量的人工智能功能,可以发现、预测和提供规范性指导,从而加快运营效率并改善客户体验。
这些人工智能和分析功能包括:
- AI Assistant,通过 ESRE 利用生成式 AI 以及内部业务和运营数据,帮助团队更流畅地响应和交互,以使用公共和私有数据解决问题。
- 行业领先的机器学习具有 100 多个内置模型,并且能够自带模型,可以快速获得洞察并解决事件。
- 一键式 AIOps 功能使用户可以轻松利用异常检测、延迟关联、日志模式分析、日志分类、故障关联等功能。
- 引入更现代的管道查询语言 ES|QL,进一步增强了 Elastic 准确、快速的搜索和分析。
这些新功能和其他功能已经过第三方和客户参考的验证,可为客户提供有意义的结果,例如:
- 一家媒体公司利用 Elastic Observability 彻底改变了客户体验,客户来电次数减少了 25% ,客户保留率提高了 3% ,解决事件的时间缩短了 85%。
- 一家美国企业数据管理领导者在 Elastic 上整合可观察性和安全性解决方案后,成本降低了 50%,并加快了 MTTR。
- 一家领先的美国金融服务公司在迁移到 Elastic 后,每个节点的成本降低了 49%,并实现了 1100 万至 2700 万美元的年度收益。
让我们回顾一下 Elastic 相对于 Splunk 的一些优势。
- AI 驱动的 MTTR 缩短
最终,你希望提高生产力并专注于产品和运营。 Elastic 允许你:
- 提高可预测性:事后发现问题是常态,但能够预防甚至预测问题是理想的。 但如何、用什么?
- 减少 MTTx:无论是平均修复时间、响应时间还是故障时间,作为 SRE,你的最终目标不仅是找到问题,还要修复问题并确保改善客户体验。
Elastic Observability 通过以下优势实现了这一目标:
基于检索增强生成 (RAG) 的上下文相关 AI 助手
新的人工智能助手利用生成式人工智能,帮助团队更流畅地响应和交互以解决问题。 AI Assistant 不仅使用生成式 AI LLM 信息,还通过 Elastic 的搜索功能利用内部信息,例如操作手册、客户问题和其他内部上下文信息。 使用相关内部文档和经过训练的公共 LLM 信息的机制称为检索增强生成 (RAG)。 这只能通过 Elastic 等高级搜索分析平台来实现。
AI 助手可以实现以下功能:
- 通过分析日志、指标、安全性、跟踪、分析、代码错误、客户问题等,加速事件管理和根本原因分析
- 基于你的专有数据和运行手册,通过你可以信赖的生成式 AI 上下文感知、特定于业务和特定于组织的输出,对问题和执行补救措施进行交互式探索
AI 助手本质上是另一个用户,可以执行以下任意操作:
- 使用自然语言界面,例如 "Are there any alerts related to this service today(今天有与此服务相关的警报吗)?" 或 "Can you explain what these alerts are(你能解释一下这些警报是什么吗)?" 作为问题确定和根本原因分析过程的一部分
- 提供结论和背景,并根据你的内部私人数据(由 ELSER 提供支持)以及连接的 LLM 中提供的信息提出后续步骤和建议
- 分析查询的响应以及 Elastic AI Assistant 执行的分析的输出
- 回忆并总结整个对话中的信息
- 通过对话生成 Lens 可视化
- 通过聊天界面代表用户执行 Kibana® 和 Elasticsearch® API
Splunk 没有搜索分析平台或 ESRE 组件来支持提供所有这些功能的 AI 助手,尤其是还使用内部数据的功能。
Alert with AI Assistant
民主化的 AIOps 和机器学习
Elastic 在机器学习领域拥有 10 多年的发展经验,不仅可以让你携带自己的模型,而且它真正可以为你完成工作。 Elastic Observability 提供了三个关键功能:
- 灵活且可定制的机器学习 (ML) 原生内置于 Elastic 平台中,可应用于任何类型的数据,无论是操作数据(指标、日志、跟踪)还是业务数据。 其中包括 100 多个机器学习模型,包括数据框架(data frame)分析和自然语言处理 (NLP)。
- 基于 ML 功能的直观拖放式 AIOps 功能以及基于向导的工作流程可分析和可视化所有数据并揭示趋势。 这些功能包括异常检测、日志峰值分析、日志分类、APM 中跟踪分布的自动错误和延迟关联等。
- 预构建的可视化和图表,可以进一步定制。
你无需成为数据科学家即可创建和运行 ML 作业或查询。 因此,你将能够更好地在问题发生之前发现它们。 此外,日志分类和 APM 关联等开箱即用功能可快速帮助根本原因分析,减少代价高昂的停机。
这种灵活性允许任何用户快速转移数据并在团队之间共享,从而实现随时随地的实时协作。
另一方面,Splunk 的 ML Toolkit 是一个附加应用程序,可能会为你的团队带来额外的工作,包括需要在 SPL 中编码模型。 这增加了学习使用 SPL 等专用语言进行可视化和仪表板的负担。
一切尽在一个平台
Elastic Observability 是一套全套解决方案,可在作为单一部署一部分的单一、完全统一的平台中提供集成日志分析、应用程序性能监控 (APM)、指标、分析和跟踪。 你的所有数据都位于 Elastic 中一个完全分布式的可扩展数据湖中。 这使你能够:
- 消除数据孤岛并从一处获得所有环境的全面可见性,无需附加产品或定价
- 作为一个团队提高协作和问题的可见性
另一方面,Splunk 客户有时需要购买多种产品(多个 Splunk 可观测性产品、Splunk Cloud 和 Splunk Enterprise)才能实现完整的可观测性功能。 此外,例如,数据日志与 Splunk 中的跟踪和指标是分离的,可能会导致转椅( swivel chair )操作(从一个屏幕切换到另一个屏幕)。
- 管理你的业务,而不是你的数据
虽然查明和解决问题很重要,但通常会花费时间来回答需要回答的特定运营问题,例如:客户体验是否下降? 应用程序的吞吐量、延迟等是多少? 我的基础设施优化了吗? 我们花太多钱了吗? 开发管道是否优化? 可观测性遥测数据可以帮助回答这些问题以及更多问题。
获得这些答案通常需要时间,并且需要关联包括业务数据在内的多组数据,甚至可能交叉引用组织内的不同孤岛。
Elastic 为你提供了多项关键功能,以确保你可以管理你的业务并花更少的时间寻找和关联数据:
- AI Assistant:为 Elastic 中存储的所有数据提供答案,无论是日志、指标、跟踪、安全数据、分析甚至业务数据。 AI Assistant 可帮助快速找到答案,并在 ESRE 的帮助下提供语义相关的答案。
- 无论数据大小或层如何,都可以通过一致的低延迟搜索进行快速搜索:Elastic 提供跨热/温/冷/冻结的 TB 数据搜索能力,查询结果在 10 秒 (ms) 范围内。
- 跨数据孤岛搜索:Elastic 提供跨多个 Elastic 部署搜索和分析数据的能力(称为跨集群搜索)。
- 能够摄取一切:不仅是传统的可观察性和安全信号,还包括业务数据。
- 可预测地管理成本:了解成本超支或潜在成本超支非常重要。 Elastic 基于资源的定价使你可以轻松预测和了解成本。
基于 AI 助手的业务和运营分析
正如我们在上一节中提到的,AI Assistant 利用生成式 AI 和 ESRE,不仅可以帮助团队更流畅地响应和交互以解决问题,还可以帮助你使用公开训练的 LLM 信息和存储在 Elastic 中的内部数据更快地分析数据。 。
以下是人工智能助手如何帮助回答我们上面列出的一些问题:
- **What is the application's throughput, latency, etc.?(**应用程序的吞吐量、延迟等是多少?) AI 助手将搜索所有应用程序的 APM 数据以及日志来分析吞吐量和延迟。
- **Is my infrastructure optimized?(**我的基础设施优化了吗?) 它将搜索你的基础设施指标,以查看 CPU、存储等是否未得到充分利用。
- **Are we spending too much money?(**我们花太多钱了吗?) 如果你在 Elastic 中提取云成本,AI 助手可以搜索你的支出并指示你的趋势线。
- **Are dev pipelines optimized?(**开发管道是否优化?) 它可以帮助分析你的 CICD 管道是否高效。
大多数竞争产品中的 AI 助手仅使用公开的 LLM 信息,无法帮助内部分析数据。 Elastic AI Assistant 是业界领先的 AI 助手。
在几毫秒内从任何数据孤岛中的所有内容中获得你需要的答案
即使有了 AI Assistant,Elastic 的优势之一就是能够直接从用户那里或通过 AI Assistant 快速获得查询答案。
Elastic 的实时搜索查询需要毫秒而不是秒,历史查询需要几分钟而不是几小时。 此外,你可能还需要交叉引用来自不同组织的数据。
借助 Elastic,数据分层可用于任何孤岛中的所有可观察性数据,从而为你的存储、搜索和分析方式提供更大的灵活性。 弹性搜索、分析和机器学习在所有数据层和跨孤岛上高效运行。
无论数据大小或层如何,一致的低延迟搜索:Elastic 提供跨热/温/冷/冻结的 TB 数据搜索能力,查询结果在 10 秒 (ms) 范围内。 只有通过更先进的摄取、索引和存储模型才能实现这种程度的一致搜索结果。 Splunk 的查询需要使用冻结层进行再恢复(rehydration, 可能会很慢)。
- 实时搜索新摄取的数据:Elastic 将摄取的数据存储在高性能、低延迟的存储层中,从而在摄取数据后的几毫秒内实现实时搜索功能,无需任何额外配置。 这使得组织能够从数据中实时获取见解和可操作的信息,没有任何延迟或滞后。 Splunk 的搜索多种多样,并且取决于其查询语言中使用的命令。
- 冷冻结层低延迟搜索:Elastic 能够在 10 秒(ms)内搜索冷冻结快照。因为它能够保留相关索引并满足重新恢复的需要。 Splunk 要求在查询之前恢复存档数据。 Splunk 冻结层中的数据必须在搜索前恢复,用户可能需要等待长达 24 小时才能搜索到数据。 当你面临影响客户和收入的问题时,这一次可能会产生严重后果。 默认情况下,Splunk Cloud 也不允许实时查询 - 你需要为此提供支持需求。
跨不同孤岛的一致低延迟搜索:Elastic 提供跨多个 Elastic 部署搜索和分析数据的能力(称为跨集群搜索)。
Splunk 的联合搜索主要针对大型企业客户构建,仅适用于特定的查询命令。 这要求你了解 SPL,并且不能保证这甚至适用于其不同的产品。
每次收集所有内容并实时访问
Elastic 使你能够通过数据转换和摄取管道在摄取时收集并保留所有数据。 在需要之前,你不需要确定什么是相关的。 (今天你如何决定几年后什么可能是重要的?)不需要对数据进行抽样。 Elastic 提供数百种集成以及摄取自定义数据的能力。 我们的 ESRE 功能可帮助处理你的数据并将其存储在 Elastic 向量数据库中,并且能够在存储在热存储中时实时搜索结果。
Splunk 客户必须确定哪些数据进入 Splunk 以及哪些数据 "落在地板上"。 这种方法可能会导致失去对潜在重要事件的可见性。 一些客户通过数据转换(丢弃原始数据并保留聚合数据)和数据管道来节省 Splunk 成本。
简单透明的基于资源的定价
Elastic 的整个平台作为单个 SKU 出售,并通过透明的基于资源的消费模型定价。 这种简化的方法可以为你节省许可和基础设施方面的资金。 基于资源的定价可实现成本可预测,因此你不必在长期数据保留方面做出妥协。
Splunk 可能具有更高的成本以及更复杂的定价和许可结构,这可能会带来额外的基础设施成本。
- 面向未来的运营
支持开放标准
开放、透明和协作是我们一切工作的核心。 你可以免费开始使用,甚至可以免费构建自我管理的完整解决方案。 (你知道吗,Elastic 的免费版本已被下载超过 36 亿次!?)Elastic 是一个 API 优先的解决方案,支持开放标准和数据转换,这意味着我们可以与你一起扩展并适应不断变化的策略。
Elastic 最近还为 OpenTelemetry 的语义约定贡献了 Elastic Common Schema (ECS),以帮助推动跨可观察性和安全性的数据定义、摄取和解析的标准化。 ECS 是 Elastic 可观测性和安全解决方案的基础,是一种经过验证且广泛采用的架构,自 2019 年推出以来多年来不断发展和成长。
Elastic 致力于通过使用特定供应商的专有代理和语义数据定义来防止供应商锁定。 此外,Elastic 本身支持 OTel。 Elastic 用户可以直接从应用程序或通过 OTel 收集器将 OTel 数据发送到 Elastic APM,后者同时处理 OTel SemConv 和 ECS。 随着 OTel 添加更多日志记录和基础设施指标支持(例如 Kubernetes),Elastic 将能够摄取任何此类数据。
借助此本机 OTel 支持,你可以使用本机 OTel agents,而无需使用 Elastic 或任何其他供应商代理。 这也允许轻松迁移到 Elastic。
请参阅 Elastic 文档以了解有关 OTel 集成的更多信息。
Splunk 的方法以专有技术为中心,可能会导致供应商锁定。
未来复杂性的统一可见性
你的环境只会变得更加复杂,这使得对统一解决方案的需求变得更加重要。 我们提供 200 多个集成以及 Elastic 通用架构 (ECS),以无缝地摄取和处理来自任何来源的任何数据。 我们的统一代理使你能够灵活地使 Elastic 适应你的策略,并在你准备好时进行扩展和转型。
与 Splunk 不同,你无需采用多种工具即可在混合和多云环境中获得这种级别的可见性。
可观察性 + 安全性(仍然只有一个 SKU)
由于 Elastic 的安全性和可观测性解决方案统一在一个平台、SKU 和数据存储上,因此你可以简化技术堆栈并促进工程、运营和安全团队之间更好的协作。 你可以更快地进行根本原因分析、消除数据隔离并降低风险,从而最终降低整体业务风险。
要将 Splunk 用于安全目的,除了可观察性之外,你还需要购买更多产品。 Splunk Enterprise Security 和 Splunk SOAR 是你在已用于可观察性的少数产品之上添加的附加产品。
采取下一步
下一步,用 Elastic 替换你的日志。 然后,着眼于未来,重点关注具有端到端可见性、缩短平均解决时间 (MTTR) 和降低总拥有成本 (total cost of ownership - TCO) 的统一可观测性解决方案的长期优势。
通过浏览 Elastic/Splunk 网页或下载 Elastic Observability 电子书了解更多信息。
最初发布于 2022 年 12 月 12 日; 更新于 2024 年 1 月 23 日。
本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。 当前不可用的任何特性或功能可能无法按时交付或根本无法交付。
原文:Why Splunk customers face a choice for observability and modernization | Elastic Blog