探索Doris:日志分析的新宠,是否能取代老牌ES?

在大数据时代,日志存储与分析对于企业的运营和决策起着至关重要的作用。Elasticsearch(简称 ES)作为一款广泛应用的开源分布式搜索和分析引擎,长期以来在日志管理领域占据着举足轻重的地位。然而,随着技术的不断发展,新的解决方案层出不穷,其中Apache Doris 凭借其卓越特性,在日志存储与分析领域迅速崛起,引发业界热议:Doris 是否会成为新一代王者,取代传统的 Elasticsearch(ES)?

1.ES在日志存储与分析中的现状

ES 凭借其强大的全文搜索功能、高扩展性和灵活的架构,成为了众多企业处理日志数据的首选。它能够快速索引海量日志,使得用户可以通过简单的查询语句,在秒级甚至毫秒级内获取到所需的日志信息。同时,ES 与 Kibana 等可视化工具的紧密集成,为用户提供了直观、便捷的日志分析界面,方便用户进行数据探索、监控和告警。

例如,在互联网公司的运维场景中,ES 可以收集来自各个服务器、应用程序的日志,运维人员通过 ES 的搜索功能,能够迅速定位系统故障时的关键日志信息,从而快速解决问题,保障服务的稳定性。在金融行业,ES 用于分析交易日志,帮助金融机构监测异常交易行为,防范风险。

2.Doris的崛起与特点

Apache Doris 是一款基于 MPP(大规模并行处理)架构的高性能分析型数据库。它专为海量数据分析场景设计,在日志存储与分析方面展现出了诸多令人瞩目的特点。

1.极速查询性能

Doris 采用了向量化执行引擎和高效的存储格式,能够对大规模日志数据进行快速扫描和计算。在复杂查询场景下,Doris 的性能优势尤为明显。例如,当需要对数十亿条日志记录进行多维度分析时,Doris 能够在极短的时间内返回结果,相比传统的数据库和部分分析引擎,查询速度提升了数倍甚至数十倍。这种极速的查询性能,使得运维人员和数据分析人员能够实时获取日志分析结果,及时做出决策。

2.简单易用

Doris 提供了标准的 SQL 接口,对于熟悉 SQL 语言的开发人员和数据分析师来说,几乎没有学习成本。用户可以使用他们熟悉的 SQL 语法进行日志数据的查询和分析,无需学习复杂的查询语法和工具。同时,Doris 的部署和管理也相对简单,降低了企业在技术运维方面的成本和难度。例如,企业只需按照简单的安装步骤,即可快速搭建起 Doris 集群,投入日志分析工作。

3.高扩展性

Doris 的分布式架构支持水平扩展,企业可以根据日志数据量的增长情况,灵活地添加节点来提升系统的存储和计算能力。在面对日志数据量爆发式增长的情况下,Doris 能够轻松应对,保障系统性能不受影响。而且,Doris 在扩展过程中,数据的均衡分布和负载均衡机制能够自动完成,无需人工过多干预,大大提高了系统的可维护性。

3.Doris替换ES进行日志存储与分析的优势

1.成本效益

从硬件成本来看,ES 在处理大规模日志数据时,由于其索引结构和存储方式的特点,往往需要较多的内存和磁盘空间来存储索引数据。而 Doris 以其高效的存储格式,能够在相同的数据量下,占用更少的硬件资源,降低了企业的硬件采购成本。在运维成本方面,Doris 简单易用的特性使得运维人员无需花费大量时间进行复杂的配置和维护工作,减少了人力成本的投入。

2.实时分析能力

日志数据的价值在于实时性,企业需要及时从日志中获取有价值的信息,以便做出快速响应。Doris 的极速查询性能使得它在实时分析日志数据方面表现出色。与 ES 相比,Doris 能够更快地对新写入的日志数据进行分析,为企业提供更及时的决策支持。例如,在电商促销活动期间,企业可以通过 Doris 实时分析用户行为日志,及时调整营销策略,提高销售转化率。

3.数据融合与分析

在实际业务场景中,企业往往需要将日志数据与其他业务数据进行融合分析,以获取更全面的洞察。Doris 作为一款分析型数据库,能够很好地与企业现有的数据仓库、业务数据库等进行集成,方便用户在同一平台上对多种类型的数据进行统一分析。而 ES 主要专注于日志搜索和简单的分析,在数据融合方面相对较弱。

4.案例见证

腾讯音乐:存储成本大瘦身,性能飙升

腾讯音乐拥有海量的音乐内容数据,原先采用 Elasticsearch 与 Doris 的混合架构,前者负责全文检索和标签圈选,后者专注 OLAP 分析。但随着数据量增长,Elasticsearch 存储空间占用大、写入性能受限等问题凸显,混合架构还导致维护成本增加与数据不一致风险。鉴于 Doris 自 2.0 版本起支持倒排索引和全文检索,腾讯音乐将架构统一为 Doris。升级后效果立竿见影,存储成本大幅降低 80%,如某表单日全量数据在 Elasticsearch 需 697.7GB 空间,在 Doris 仅需 195.4GB 。全量数据导入时间从超 10 小时缩至 3 小时内,写入性能提升至 Elasticsearch 的 4 倍,还支持复杂自定义标签计算,极大改善用户体验。

科大讯飞:查询效率飞跃,成本显著降低

科大讯飞的星迹日志中心,起初基于 Elasticsearch 搭建日志处理架构,随着日志数据迅猛增长,CPU 占用高、存储成本高、稳定性差等问题接踵而至。后来尝试采用基于 Grafana Loki 的轻量化架构,依然存在 CPU 使用率高、查询分析效率低等状况。最终,科大讯飞引入 Apache Doris 作为可观测性存储底座。Doris 展现出强大实力,可支撑日均 600 亿条、10TB 的写入流量,与 Elasticsearch 相比,存储成本降至其六分之一,查询效率至少提升 10 倍,尤其是在聚合分析、短语模糊匹配及 topn 命中前缀索引等场景下表现卓越。借助 Doris Manager,集群管理变得便捷轻松,系统还提供 Grafana 和自研 web 查询界面,方便用户进行日志检索与分析。

中信银行:借 Doris 之力,打破 ES 日志处理困境

中信银行信用卡中心每日新增日志达 140 亿条、约 80TB,全量归档超 40PB。早期基于 Elasticsearch 的日志云平台,在数据量激增时,存储成本高、写入慢、检索缓,难满足复杂业务需求。引入 Apache Doris 后,局面扭转。Doris 每日稳定处理百 TB 级日志写入,延迟 1 秒内,支持 PB 级存储,较 ES 存储成本降 60%-80%,还能将冷数据存至低成本介质。在日志检索上,常见查询可秒级响应,具备强大的检索、聚合等分析能力。

5.结语

Apache Doris 凭借其在查询性能、易用性、扩展性以及成本效益等方面的优势,在日志存储与分析领域展现出了强大的竞争力,为企业提供了一种替换 ES 的可行选择。当然,ES 也在不断发展和完善,在某些特定场景下仍然具有不可替代的价值。但无论如何,Doris 的出现为企业的日志管理带来了新的思路和解决方案,促使我们重新审视和优化日志存储与分析的架构。

相关推荐
Hello.Reader9 小时前
从 0 到 1Flink DataStream API 入门与上手实战
大数据·flink
哔哩哔哩技术9 小时前
RAG在B站大会员中心数据智能平台的应用实践
大数据
INFINI Labs10 小时前
Easysearch 国产替代 Elasticsearch:8 大核心问题解读
大数据·elasticsearch·搜索引擎·jenkins·easysearch
TDengine (老段)10 小时前
TDengine 聚合函数 ELAPSED 用户手册
java·大数据·数据库·sql·物联网·时序数据库·tdengine
TDengine (老段)10 小时前
TDengine 聚合函数 HYPERLOGLOG 用户手册
大数据·数据库·物联网·哈希算法·时序数据库·iot·tdengine
Elastic 中国社区官方博客10 小时前
使用 Elasticsearch 构建 AI Agentic 工作流
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
泊浮目11 小时前
AutoMQ代码里的那些设计
大数据·消息队列
Elasticsearch11 小时前
你的第一个 Elastic Agent:从单个查询到 AI 驱动的聊天
elasticsearch
庄小焱12 小时前
大数据存储域——HBase数据库
大数据