金蝶云•星辰基于 SLS 构建稳定高效可观测系统

金蝶云•星辰通过日志服务 SLS 替换自建 ELK 系统,打造统一可观测平台,应对业务高速增长下的可观测系统稳定性难题。

客户介绍

金蝶云•星辰作为金蝶旗下一款小型企业 SaaS 管理云,聚焦小型企业在线经营和数字化管理,业务处于高速增长状态。

业务挑战

  • 业务高速增长,系统不堪重负

业务规模翻倍增长的背景下,可观测数据规模也在迅速增加,现有基于开源自建的 ELK 日志系统遇到数据写入性能瓶颈、系统的并发和稳定性问题频发,尤其是在业务高峰期间的查询性能问题直接导致用户体验不佳,难以支撑业务高速发展的现状。

  • 不同系统隔离,界面来回切换

基于开源自建的可观测系统数据分散,系统复杂度高,日志、监控、告警数据分散,难以快速定位问题。其次数据未被有效利用,运维人员淹没在海量数据中,难以有效分析和决策。当告警触发时,运维人员需要频繁地来回跳转不同界面进行问题排查,效率较低。

阿里云的解决方案

自建 ELK 日志系统无缝迁移到 SLS

ELK 迁移 SLS 过程中支持数据链路双写进行双向校验,数据无误后去掉原有 Filebeat 链路,完成采集方式的切换。SLS 单用户 PB 规模级别的写入性能、同城冗余的存储高可用、千亿行数据查询秒级返回的能力,为客户业务的高速发展保驾护航。

基于 SLS 构建一站式可观测系统

SLS 自研探针 Logtail,还支持统一采集存储可观测数据 Log、Metric、Trace 数据,支持用户通过 SLS 进行按主题重构、交互式、联动查询分析,支持数据冷热分层降低存储成本,通过 SLS 开放兼容接口对接用户不同业务平台。

主要问题数据源对接 Grafana 进行可视化

为了最大程度降低开源自建用户迁移 SLS 后的学习成本,针对习惯于使用 Grafana 分析日志数据,但需要将 ELK 系统迁移到 SLS 的用户,日志服务提供了兼容 Elasticsearch 的接口,便于他们使用 Grafana 的 Elasticsearch 数据源插件访问日志服务进行查询和分析。另外,日志服务也提供了原生的 Grafana 数据源插件。

业务价值

开源 ELK 日志系统无缝迁移至日志服务 SLS 后,金蝶云•星辰实现了可观测体系的统一,为未来业务快速扩张与 AIOps 能力建设奠定基础。具体成效如下:

  • 运维效率提升:通过日志服务 SLS 的实时分析能力,跨系统故障排查时间缩短 50%;
  • 业务连续性保障:基于 SLS 构建的可观测系统稳定性提升 60%。

相关最佳实践:

鸣鸣很忙基于 SLS+ARMS+CMS 构建端到端全链路可观测体系

www.aliyun.com/customer-st...

神州商龙基于阿里云构建统一的可观测平台

www.aliyun.com/customer-st...

友邦人寿可观测体系设计与落地

www.aliyun.com/customer-st...

相关推荐
二宝15210 小时前
黑马商城day4-微服务02
微服务·云原生·架构
数据库知识分享者小北12 小时前
云栖重磅|瑶池数据库:从云原生数据底座向“AI就绪”的多模态数据底座演进
数据库·人工智能·云原生
阿里云云原生15 小时前
Higress v2.1.8:30 项引擎更新 + 4 项控制台更新
云原生
阿里云云原生18 小时前
移动端性能监控探索:iOS RUM SDK 技术架构与实践
云原生
阿里云云原生18 小时前
Nacos 3.1.0 正式发布,支持 A2A 注册中心与 MCP 注册协议增强
微服务·云原生
阿里云云原生19 小时前
Qoder 上线提示词增强功能,将开发者从“提示词”的负担中解放出来
云原生
维诺菌20 小时前
k8s java应用pod内存占用过高问题排查
java·jvm·云原生·容器·性能优化·kubernetes
helloworddm20 小时前
Orleans 与 Kubernetes 结合的价值分析
云原生·容器·kubernetes
KubeSphere 云原生21 小时前
云原生周刊:Helm 十年,成就 Kubernetes 的生态中枢
云原生·容器·kubernetes
奋斗的蛋黄1 天前
K8s 核心三组件:kubelet、kubeadm、kubectl 知识点梳理
云原生·容器·kubernetes