"阿里云SelectDB作为MiniMax日志存储服务的核心支撑,为在线和离线业务提供了高效、稳定的查询与聚合分析能力。其支持实时物化视图、租户资源隔离、冷热分离等企业级特性,不仅有效解决了日志场景下PB级别数据查询的性能瓶颈,还通过智能化的资源调度与存储优化,实现了成本与效率的最佳平衡,为业务的高效运转提供了坚实保障。"
------MiniMax可观测架构师 香克斯
可观测日志系统的探索与挑战
近年来,MiniMax在多模态与文本模型领域持续发力,凭借其技术突破和应用创新能力,迅速成为全球人工智能领域的焦点。25年1月,MiniMax发布了多项重磅成果:支持主体参考功能的视频新模型S2V-01、基于大规模线性注意力机制的开源模型MiniMax-01系列,以及支持17种语言音频合成的T2A-01系列语音模型。作为一家成立仅三年但估值已突破数十亿美元的初创企业,MiniMax已然跻身人工智能领域最具潜力的独角兽企业之列。
为了深入洞察模型训练迭代和 AI应用的运行状态,精准定位潜在问题以持续优化模型和业务系统的性能,可观测系统的建设成为MiniMax底层基础设施建设中不可或缺的关键环节。然而,随着业务规模的快速扩张,海量日志数据的处理对系统的性能和成本提出了严峻挑战。
Loki架构的尝试与局限性
在可观测系统的建设初期,为降低业务系统复杂度和存储成本,MiniMax采用轻量化的Grafana Loki。 其中,Promtail负责采集日志并发送给Loki,Loki负责日志存储和查询,Grafana用于UI展示。Loki通过日志标签和元数据索引显著降低了存储成本和索引复杂度。然而,因缺乏日志内容的索引,查询依赖正则表达式匹配和逐行扫描,造成大规模日志查询时资源消耗过高,查询响应时间延长。此外,每个Kubernetes集群需独立部署完整的日志采集与存储服务,增加了运维复杂度和成本。
随着业务规模的指数级增长,MiniMax日志数据量迅速攀升至PB级别,Apache Loki在资源消耗、写入性能和查询易用性等方面暴露出瓶颈。为此,MiniMax对日志可观测系统提出了更高要求:
- 更高的查询性能:支持上亿条数据的秒级查询响应。
- 更低的存储成本:在PB级日志数据规模下,实现更具性价比的日志采集与存储方案。
Doris架构的升级与痛点
为满足上述需求,MiniMax对日志可观测系统进行了全面重构。新系统采用阿里云开源的iLogtail作为日志采集工具,将日志数据推送至Kafka消息队列。随后,数据通过两种方式写入Doris集群:一部分由Mlogs Ingester从Kafka拉取并通过Stream Load写入Doris;另一部分由Doris通过Routine Load直接订阅Kafka消息流。Doris作为核心存储与查询引擎,实现了全量日志数据的统一管理,避免了多集群独立部署的复杂性。
然而,随着MiniMax旗下星野和Talkie等AI应用的日活跃用户数迅速攀升至行业榜首,其日志数据量和查询请求呈爆发式增长,日均新增日志数据量超过数百TiB,MiniMax日志可观测系统逐渐面临了诸多挑战:
- 业务快速扩张导致数据和查询量激增,频繁的集群扩容需要进行数据迁移,因数据规模较大,迁移过程繁琐且耗时,影响了业务连续性。
- 日志可观测系统负责多个业务的数据分析,单实例多业务并发时,内部资源竞争和干扰导致实例稳定性和查询性能下降,降低用户体验和决策及时性。
- 自建Doris的运维成本较高 ,参数调优和集群管理耗费了大量的人力物力。
- 在遇到Apache Doris内核相关问题时,社区支持的效率和专业性不均衡,增加了企业解决问题的时间成本和风险。
这些问题制约了MiniMax日志可观测系统的优化升级,亟待寻求更高效、稳定的解决方案。
DevOps日志系统最佳实践:阿里云SelectDB
为了应对上述挑战,MiniMax引入了阿里云企业级数据仓库SelectDB。SelectDB沿用了Apache Doris的技术架构,100%兼容Doris语法,并针对写入吞吐和查询性能等方面进行了深度优化。它不仅降低了使用成本,还简化了运维流程,提高了服务等级协议(SLA)保障。通过采用存算分离的云原生架构,SelectDB为处理海量日志提供了近乎无限的扩展能力,从而为MiniMax的日志可观测体系提供了更加稳定和健壮的日志数据处理能力。
阿里云SelectDB技术方案优势
阿里云SelectDB以其实时弹性、简单易用、开源开放等差异化优势,能够实时处理PB级别的日志数据,并且提供了万级QPS实时报表查询和亚秒级即席多维分析的体验。与开源自建方案相比,SelectDB在性价比上有显著提升,并通过深度优化OSS写入方式,实现了超过10GB/s的读写吞吐能力。
优势一:弹性伸缩,提高集群扩容效率
Apache Doris采用MPP架构,基于分桶逻辑进行数据的物理水平拆分,这种架构在用户数据量稳定阶段能有效利用多分桶的并行处理能力解决大规模数据实时查询问题。然而,随着数据写入量和单个分桶数据量的快速增长,单个数据分桶节点可能会达到资源瓶颈,此时集群必须进行水平扩展。Doris的水平扩展需要进行全量数据的Reblance,以避免各个节点间负载不均衡。对于MiniMax来说,单次扩容因涉及PB级数据的重分布,可能需要数小时甚至达到天级别,给运维带来巨大负担。此外,突发业务流量时,扩容效率低可能导致集群资源不足,进而引发实例宕机风险。
阿里云SelectDB采用存算分离的云原生架构,将计算与存储分层解耦,支持独立扩缩容。在扩容过程中无需迁移数据,PB级数据可以实现分钟级扩缩容 。业务低谷期可以根据实际情况动态缩减资源,避免了资源浪费,最大化提高资源利用效率。MiniMax在将日志可观测系统迁移到SelectDB 后,整体集群扩容时间可达到分钟级别,大大降低了运维成本,并且能够通过弹性伸缩能力迅速应对突发业务流量。
优势二:存算分离, 提升吞吐效率并降低存储成本
MiniMax在使用Apache Doris集群时,为了实现数据高可用,生产环境默认采用Doris的两副本模式,导致存储资源消耗和集群写入压力均增至单副本的两倍 。此外,考虑到过高的存储成本,MiniMax在Doris数仓中仅保留15天的业务数据,其他数据通过冷归档的方式存储;而需要对这部分归档数据进行查询分析时,则临时从归档库中解压加载后才能进行分析,极大降低了数据查询的效率。
阿里云SelectDB采用存算分离的设计,存储层基于阿里云对象存储OSS提供存储服务。MiniMax在使用SelectDB后,利用OSS的数据高可用能力,计算引擎仅需单份数据写入,存储资源需求减少至Doris的二分之一,实际业务写入吞吐能力提升超20% 。此外,由于整体存储成本的降低,SelectDB支持对历史全量数据的实时查询分析,大大提高了数据查询效率 * 。*
优势三:资源隔离,提高并发读写效率
MiniMax在使用Apache Doris时,存在多个业务团队共享同一实例进行全量数据查询分析的情况,可能导致因不规范或大规模查询耗尽实例资源,进而引发查询或数据导入任务超时。
阿里云SelectDB支持云原生多集群硬隔离能力,用户可以将单个实例的计算资源划分为多个逻辑集群,不同集群之间的分配独立的 * *计算资源,实现了不同集群的严格物理资源隔离和数据共享,很好的解决负载隔离问题。此外,SelectDB还支持读写分离能力,进一步提高了并发查询效率。MiniMax在使用了SelectDB后,采用了SelectDB多集群隔离能力,并将读写集群分开,避免了读写资源抢占带来的实例稳定性问题,大大提高了并发读写效率。
优势四:缓存加速,提供高吞吐与低延迟
阿里云SelectDB通过单副本本地读写缓存、智能数据淘汰策略、高效列式存储格式和先进压缩算法,显著提升了海量数据的读写效率。 业务进行数据查询时,依据LRU的读缓存策略,保证业务对于实时写入数据和高频查询热数据的查询性能。当发现缓存命中率低和查询性能不及预期时,可以进行实时的缓存空间扩容,以提升缓存命中率,PB级数据P95查询可以在3秒内响应,提高了数据查询效率。
阿里云SelectDB还具备高SLA保障,持久化数据存储提供同城冗余和12个9的数据可靠性保障 。此外,SelectDB还提供了直观的用户界面和产品化的运维工具,支持扩缩容、版本升级、参数配置和监控告警等操作,显著降低了运维复杂度。 用户仅需关注计算资源、缓存大小和数据存储使用率等核心指标,减少了开发和运维团队的负担。
业务价值
基于阿里云SelectDB,MiniMax构建了覆盖国内及海外业务的日志可观测中台,总体数据规模超过数PB,日均新增日志写入量达数百TB。系统在P95分位查询场景下的响应时间小于3秒,峰值时刻实现了超过10GB/s的读写吞吐。通过存算分离、高压缩比算法和单副本热缓存等技术手段,MiniMax在优化性能的同时显著降低了建设成本,计算资源用量降低40%,热数据存储用量降低50% ,为未来业务的高速发展和技术演进奠定了坚实基础。
总结与展望
回顾MiniMax可观测系统的演进历程,从初期的Loki架构到Apache Doris的引入,再到SelectDB的全面升级,每一次技术迭代都体现了MiniMax对业务需求的深刻理解和对技术创新的不懈追求。阿里云SelectDB凭借其卓越的性能、灵活的架构和强大的生态能力,为MiniMax提供了高效、稳定的日志存储与分析服务,助力其在大模型实践中实现成本与效率的最佳平衡。
未来,随着MiniMax业务的持续高速发展,日志可观测系统将继续作为洞察系统运行状态和优化性能的核心工具。阿里云将与MiniMax携手,进一步挖掘日志数据的潜在价值,为业务创新提供更强有力的支持。