金蝶云•星辰基于 SLS 构建稳定高效可观测系统

金蝶云•星辰通过日志服务 SLS 替换自建 ELK 系统,打造统一可观测平台,应对业务高速增长下的可观测系统稳定性难题。

客户介绍

金蝶云•星辰作为金蝶旗下一款小型企业 SaaS 管理云,聚焦小型企业在线经营和数字化管理,业务处于高速增长状态。

业务挑战

  • 业务高速增长,系统不堪重负

业务规模翻倍增长的背景下,可观测数据规模也在迅速增加,现有基于开源自建的 ELK 日志系统遇到数据写入性能瓶颈、系统的并发和稳定性问题频发,尤其是在业务高峰期间的查询性能问题直接导致用户体验不佳,难以支撑业务高速发展的现状。

  • 不同系统隔离,界面来回切换

基于开源自建的可观测系统数据分散,系统复杂度高,日志、监控、告警数据分散,难以快速定位问题。其次数据未被有效利用,运维人员淹没在海量数据中,难以有效分析和决策。当告警触发时,运维人员需要频繁地来回跳转不同界面进行问题排查,效率较低。

阿里云的解决方案

自建 ELK 日志系统无缝迁移到 SLS

ELK 迁移 SLS 过程中支持数据链路双写进行双向校验,数据无误后去掉原有 Filebeat 链路,完成采集方式的切换。SLS 单用户 PB 规模级别的写入性能、同城冗余的存储高可用、千亿行数据查询秒级返回的能力,为客户业务的高速发展保驾护航。

基于 SLS 构建一站式可观测系统

SLS 自研探针 Logtail,还支持统一采集存储可观测数据 Log、Metric、Trace 数据,支持用户通过 SLS 进行按主题重构、交互式、联动查询分析,支持数据冷热分层降低存储成本,通过 SLS 开放兼容接口对接用户不同业务平台。

主要问题数据源对接 Grafana 进行可视化

为了最大程度降低开源自建用户迁移 SLS 后的学习成本,针对习惯于使用 Grafana 分析日志数据,但需要将 ELK 系统迁移到 SLS 的用户,日志服务提供了兼容 Elasticsearch 的接口,便于他们使用 Grafana 的 Elasticsearch 数据源插件访问日志服务进行查询和分析。另外,日志服务也提供了原生的 Grafana 数据源插件。

业务价值

开源 ELK 日志系统无缝迁移至日志服务 SLS 后,金蝶云•星辰实现了可观测体系的统一,为未来业务快速扩张与 AIOps 能力建设奠定基础。具体成效如下:

  • 运维效率提升:通过日志服务 SLS 的实时分析能力,跨系统故障排查时间缩短 50%;
  • 业务连续性保障:基于 SLS 构建的可观测系统稳定性提升 60%。

相关最佳实践:

鸣鸣很忙基于 SLS+ARMS+CMS 构建端到端全链路可观测体系

www.aliyun.com/customer-st...

神州商龙基于阿里云构建统一的可观测平台

www.aliyun.com/customer-st...

友邦人寿可观测体系设计与落地

www.aliyun.com/customer-st...

相关推荐
匀泪1 小时前
云原生(LVS NAT模式集群实验)
服务器·云原生·lvs
DolitD2 小时前
云流技术深度剖析:国内云渲染主流技术与开源和海外厂商技术实测对比
功能测试·云原生·开源·云计算·实时云渲染
ghostwritten3 小时前
春节前夕,运维的「年关」:用 Kubeowler 给集群做一次「年终体检」
运维·云原生·kubernetes
liux352819 小时前
基于kubeadm部署Kubernetes 1.26.4 集群指南
云原生·容器·kubernetes
Zfox_1 天前
CANN Catlass 算子模板库深度解析:高性能 GEMM 融合计算、Cube Unit Tiling 机制与编程范式实践
docker·云原生·容器·eureka
农民工老王1 天前
K8s 1.31 私有化部署实战:从 Calico 崩溃到 NFS 挂载失败的排坑全记录
云原生·kubernetes
灰子学技术1 天前
istio从0到1:如何解决分布式配置同步问题
分布式·云原生·istio
小马爱打代码1 天前
ZooKeeper:入门实战
分布式·zookeeper·云原生
logocode_li1 天前
OCI/CRI 双标准下:从 dockerd 到 containerd 的 K8s 运行时迭代史
docker·云原生·容器·k8s
天才奇男子2 天前
HAProxy高级功能全解析
linux·运维·服务器·微服务·云原生