金蝶云•星辰基于 SLS 构建稳定高效可观测系统

金蝶云•星辰通过日志服务 SLS 替换自建 ELK 系统,打造统一可观测平台,应对业务高速增长下的可观测系统稳定性难题。

客户介绍

金蝶云•星辰作为金蝶旗下一款小型企业 SaaS 管理云,聚焦小型企业在线经营和数字化管理,业务处于高速增长状态。

业务挑战

  • 业务高速增长,系统不堪重负

业务规模翻倍增长的背景下,可观测数据规模也在迅速增加,现有基于开源自建的 ELK 日志系统遇到数据写入性能瓶颈、系统的并发和稳定性问题频发,尤其是在业务高峰期间的查询性能问题直接导致用户体验不佳,难以支撑业务高速发展的现状。

  • 不同系统隔离,界面来回切换

基于开源自建的可观测系统数据分散,系统复杂度高,日志、监控、告警数据分散,难以快速定位问题。其次数据未被有效利用,运维人员淹没在海量数据中,难以有效分析和决策。当告警触发时,运维人员需要频繁地来回跳转不同界面进行问题排查,效率较低。

阿里云的解决方案

自建 ELK 日志系统无缝迁移到 SLS

ELK 迁移 SLS 过程中支持数据链路双写进行双向校验,数据无误后去掉原有 Filebeat 链路,完成采集方式的切换。SLS 单用户 PB 规模级别的写入性能、同城冗余的存储高可用、千亿行数据查询秒级返回的能力,为客户业务的高速发展保驾护航。

基于 SLS 构建一站式可观测系统

SLS 自研探针 Logtail,还支持统一采集存储可观测数据 Log、Metric、Trace 数据,支持用户通过 SLS 进行按主题重构、交互式、联动查询分析,支持数据冷热分层降低存储成本,通过 SLS 开放兼容接口对接用户不同业务平台。

主要问题数据源对接 Grafana 进行可视化

为了最大程度降低开源自建用户迁移 SLS 后的学习成本,针对习惯于使用 Grafana 分析日志数据,但需要将 ELK 系统迁移到 SLS 的用户,日志服务提供了兼容 Elasticsearch 的接口,便于他们使用 Grafana 的 Elasticsearch 数据源插件访问日志服务进行查询和分析。另外,日志服务也提供了原生的 Grafana 数据源插件。

业务价值

开源 ELK 日志系统无缝迁移至日志服务 SLS 后,金蝶云•星辰实现了可观测体系的统一,为未来业务快速扩张与 AIOps 能力建设奠定基础。具体成效如下:

  • 运维效率提升:通过日志服务 SLS 的实时分析能力,跨系统故障排查时间缩短 50%;
  • 业务连续性保障:基于 SLS 构建的可观测系统稳定性提升 60%。

相关最佳实践:

鸣鸣很忙基于 SLS+ARMS+CMS 构建端到端全链路可观测体系

www.aliyun.com/customer-st...

神州商龙基于阿里云构建统一的可观测平台

www.aliyun.com/customer-st...

友邦人寿可观测体系设计与落地

www.aliyun.com/customer-st...

相关推荐
const_qiu15 小时前
微服务测试项目架构设计与实践
微服务·云原生·架构
不是书本的小明16 小时前
K8s探针实战:存活、就绪与启动三重保障
云原生·k8s
恋红尘16 小时前
K8S 配置与调度-叩丁狼
云原生·容器·kubernetes
掘根17 小时前
【微服务即时通讯】用户管理子服务1
微服务·云原生·架构
恋红尘17 小时前
K8S Pod 基础解析-分篇-叩丁狼
云原生·容器·kubernetes·pod
阿里云云原生17 小时前
极速导入,便捷无忧!LoongCollector 一次性文件采集能力上线
云原生
丘桔18 小时前
k8s01:容器运行时之争
云原生·容器·kubernetes
2401_8916558118 小时前
开源项目吐槽大会技术文章大纲
数据库·云原生
步步为营DotNet19 小时前
#.NET Aspire在云原生应用部署与管理中的深度实践
云原生·.net
掘根20 小时前
【微服务即时通讯】用户管理子服务2
微服务·云原生·架构