金蝶云•星辰基于 SLS 构建稳定高效可观测系统

金蝶云•星辰通过日志服务 SLS 替换自建 ELK 系统,打造统一可观测平台,应对业务高速增长下的可观测系统稳定性难题。

客户介绍

金蝶云•星辰作为金蝶旗下一款小型企业 SaaS 管理云,聚焦小型企业在线经营和数字化管理,业务处于高速增长状态。

业务挑战

  • 业务高速增长,系统不堪重负

业务规模翻倍增长的背景下,可观测数据规模也在迅速增加,现有基于开源自建的 ELK 日志系统遇到数据写入性能瓶颈、系统的并发和稳定性问题频发,尤其是在业务高峰期间的查询性能问题直接导致用户体验不佳,难以支撑业务高速发展的现状。

  • 不同系统隔离,界面来回切换

基于开源自建的可观测系统数据分散,系统复杂度高,日志、监控、告警数据分散,难以快速定位问题。其次数据未被有效利用,运维人员淹没在海量数据中,难以有效分析和决策。当告警触发时,运维人员需要频繁地来回跳转不同界面进行问题排查,效率较低。

阿里云的解决方案

自建 ELK 日志系统无缝迁移到 SLS

ELK 迁移 SLS 过程中支持数据链路双写进行双向校验,数据无误后去掉原有 Filebeat 链路,完成采集方式的切换。SLS 单用户 PB 规模级别的写入性能、同城冗余的存储高可用、千亿行数据查询秒级返回的能力,为客户业务的高速发展保驾护航。

基于 SLS 构建一站式可观测系统

SLS 自研探针 Logtail,还支持统一采集存储可观测数据 Log、Metric、Trace 数据,支持用户通过 SLS 进行按主题重构、交互式、联动查询分析,支持数据冷热分层降低存储成本,通过 SLS 开放兼容接口对接用户不同业务平台。

主要问题数据源对接 Grafana 进行可视化

为了最大程度降低开源自建用户迁移 SLS 后的学习成本,针对习惯于使用 Grafana 分析日志数据,但需要将 ELK 系统迁移到 SLS 的用户,日志服务提供了兼容 Elasticsearch 的接口,便于他们使用 Grafana 的 Elasticsearch 数据源插件访问日志服务进行查询和分析。另外,日志服务也提供了原生的 Grafana 数据源插件。

业务价值

开源 ELK 日志系统无缝迁移至日志服务 SLS 后,金蝶云•星辰实现了可观测体系的统一,为未来业务快速扩张与 AIOps 能力建设奠定基础。具体成效如下:

  • 运维效率提升:通过日志服务 SLS 的实时分析能力,跨系统故障排查时间缩短 50%;
  • 业务连续性保障:基于 SLS 构建的可观测系统稳定性提升 60%。

相关最佳实践:

鸣鸣很忙基于 SLS+ARMS+CMS 构建端到端全链路可观测体系

www.aliyun.com/customer-st...

神州商龙基于阿里云构建统一的可观测平台

www.aliyun.com/customer-st...

友邦人寿可观测体系设计与落地

www.aliyun.com/customer-st...

相关推荐
容器魔方2 小时前
KubeEdge秋季带薪远程实习来了!2025年LFX Mentorship开启申请
云原生·容器·云计算
Rookie小强4 小时前
ZooKeeper和Reids做分布式锁的区别?
分布式·zookeeper·云原生
斯普信专业组4 小时前
zookeeper因jute.maxbuffer启动异常问题排查处理
分布式·zookeeper·云原生
@不会写代码的小张6 小时前
K8s DaemonSet 详解
云原生·容器·kubernetes
DogDaoDao19 小时前
WebAssembly技术详解:从浏览器到云原生的高性能革命
云原生·音视频·编译·wasm·webassembly·流媒体·多媒体
容器魔方1 天前
华为云入选Gartner®容器管理魔力象限领导者
云原生·容器·云计算
Ruimin05191 天前
kubernetes
云原生·容器·kubernetes
only_Klein2 天前
K8S云原生监控方案Prometheus+grafana
云原生·kubernetes·prometheus
●VON2 天前
重生之我在暑假学习微服务第十天《网关篇》
学习·微服务·云原生·架构