金蝶云•星辰基于 SLS 构建稳定高效可观测系统

金蝶云•星辰通过日志服务 SLS 替换自建 ELK 系统,打造统一可观测平台,应对业务高速增长下的可观测系统稳定性难题。

客户介绍

金蝶云•星辰作为金蝶旗下一款小型企业 SaaS 管理云,聚焦小型企业在线经营和数字化管理,业务处于高速增长状态。

业务挑战

  • 业务高速增长,系统不堪重负

业务规模翻倍增长的背景下,可观测数据规模也在迅速增加,现有基于开源自建的 ELK 日志系统遇到数据写入性能瓶颈、系统的并发和稳定性问题频发,尤其是在业务高峰期间的查询性能问题直接导致用户体验不佳,难以支撑业务高速发展的现状。

  • 不同系统隔离,界面来回切换

基于开源自建的可观测系统数据分散,系统复杂度高,日志、监控、告警数据分散,难以快速定位问题。其次数据未被有效利用,运维人员淹没在海量数据中,难以有效分析和决策。当告警触发时,运维人员需要频繁地来回跳转不同界面进行问题排查,效率较低。

阿里云的解决方案

自建 ELK 日志系统无缝迁移到 SLS

ELK 迁移 SLS 过程中支持数据链路双写进行双向校验,数据无误后去掉原有 Filebeat 链路,完成采集方式的切换。SLS 单用户 PB 规模级别的写入性能、同城冗余的存储高可用、千亿行数据查询秒级返回的能力,为客户业务的高速发展保驾护航。

基于 SLS 构建一站式可观测系统

SLS 自研探针 Logtail,还支持统一采集存储可观测数据 Log、Metric、Trace 数据,支持用户通过 SLS 进行按主题重构、交互式、联动查询分析,支持数据冷热分层降低存储成本,通过 SLS 开放兼容接口对接用户不同业务平台。

主要问题数据源对接 Grafana 进行可视化

为了最大程度降低开源自建用户迁移 SLS 后的学习成本,针对习惯于使用 Grafana 分析日志数据,但需要将 ELK 系统迁移到 SLS 的用户,日志服务提供了兼容 Elasticsearch 的接口,便于他们使用 Grafana 的 Elasticsearch 数据源插件访问日志服务进行查询和分析。另外,日志服务也提供了原生的 Grafana 数据源插件。

业务价值

开源 ELK 日志系统无缝迁移至日志服务 SLS 后,金蝶云•星辰实现了可观测体系的统一,为未来业务快速扩张与 AIOps 能力建设奠定基础。具体成效如下:

  • 运维效率提升:通过日志服务 SLS 的实时分析能力,跨系统故障排查时间缩短 50%;
  • 业务连续性保障:基于 SLS 构建的可观测系统稳定性提升 60%。

相关最佳实践:

鸣鸣很忙基于 SLS+ARMS+CMS 构建端到端全链路可观测体系

www.aliyun.com/customer-st...

神州商龙基于阿里云构建统一的可观测平台

www.aliyun.com/customer-st...

友邦人寿可观测体系设计与落地

www.aliyun.com/customer-st...

相关推荐
AI云原生2 小时前
如何使用Docker快速运行Firefox并实现远程访问本地火狐浏览器的教程
运维·docker·云原生·容器·serverless·firefox·kubeless
泡沫冰@4 小时前
K8S集群管理(3)
云原生·容器·kubernetes
LQ深蹲不写BUG5 小时前
微服务事务管理利器:Seata 核心原理与实践指南
微服务·云原生·架构
nathan05296 小时前
Kubernetes 实战练习指南
云原生·容器·kubernetes
云和数据.ChenGuang8 小时前
微服务技术栈
微服务·云原生·架构
江团1io010 小时前
微服务雪崩问题与系统性防御方案
微服务·云原生·架构
Evan Wang11 小时前
使用Terraform管理阿里云基础设施
阿里云·云原生·terraform
向上的车轮11 小时前
基于go语言的云原生TodoList Demo 项目,验证云原生核心特性
开发语言·云原生·golang
九章云极AladdinEdu13 小时前
Kubernetes设备插件开发实战:实现GPU拓扑感知调度
人工智能·机器学习·云原生·容器·kubernetes·迁移学习·gpu算力
泡沫冰@13 小时前
K8S集群管理(4)
云原生·容器·kubernetes