酷家乐基于Clickhouse实现的调用链全保留方案实践

改造背景

在分布式系统中,前端发起的一次请求可能经过了多个微服务、多台机器、多个中间件,这使得排查问题变得艰难,调用链通常是帮助开发同学快速定位、排查线上问题的重要手段。酷家乐通过自研的Hunter SDK来进行分布式服务调用链追踪,Hunter主要借鉴了Google Dapper论文的开源版本Twitter Zipkin实现。

过去酷家乐的调用链数据以日志落盘,采用filebeat将数据采集到Kafka,再采样存入Elasticsearch,最后通过监控系统的Web UI呈现出一条有调用关系的完整调用链,这其中我们对线上的正常调用链进行了1/1000采样,对请求异常的调用链(错误、超时)进行了全保留,虽然也能满足大多数需求,但业务同学还是反馈了一些使用上的痛点:

  • 关键请求的调用链没采样到,丢失了证据;
  • 高峰期调用链偶尔存在较大延迟(10+min以上),线上排查问题效率低;
  • 调用链保存时间太短,事后排查问题困难;
  • 线下、线上调用链未分离,导致高峰期线上延迟,影响线下调用链的实时性,测试同学经常反馈线下调用链延迟太高或查不到。

针对这些问题,我们也做了一些弥补工作:

  • 自适应采样,保证低流量接口也能查到调用链;
  • 自定义采样,用户可以配置指定服务、接口、用户等关键信息的20分钟全保留策略。

除了用户体验不好,我们的调用链系统也存在一些性能问题:

  • 由于采用尾部采样策略导致机器资源消耗过大,实时性降低。这种采样策略是在请求处理完成时决定整条链路是否保留。客户端会将所有 Span 都上报到调用链追踪系统后台,后台根据一定预设的规则,决定哪些链路被保留。在我们的Flink流处理中,设立一个2min的时间窗口等待完整的调用链,然后判断该条调用链是否保留,因此需要大量的内存资源存储2min的调用链数据,这不仅耗费机器资源,系统稳定性也受影响;
  • Elasticsearch存储调用链数据同样对资源消耗过大,而且写入性能不高,导致高峰期写入出现瓶颈,写入能力下降,最终延迟现象频现。

因此我们不得不重新思考该如何彻底解决调用链的采样、延迟、系统不稳定问题,这就是我们采用ClickHouse来进行调用链全保留的背景。

改造效果

使用ClickHouse来进行调用链全保留以后,也稳定运行了半年,总结了下最终的改造效果:

  • 调用链系统更稳定
  • 降本增效,ClickHouse集群替代了Elasticsearch集群,使用了原来50%的机器资源完成了100%的调用链数据存储
  • 调用链延迟从高峰期2~10分钟降低到1分钟左右,即数据从产生到可查的延迟在1分钟左右。
  • 调用链查询平均响应时间500ms以内,P999响应时间在7s,查询整条调用链的查询性能相较Elasticsearch较低,但是在可容忍范围内
  • ClickHouse集群单节点写入性能200w条/s

实现方案

酷家乐调用链系统架构图

旧版架构图如下:

通过Flink的2min窗口等待完整的调用链实现尾部采样,然后写入Elasticsearch集群,因此该方案延迟至少2min,并且存在上文提到的性能和用户体验问题。

新版架构图如下:

由于我们使用ClickHouse替代了Elasticsearch,那么采样的逻辑自然就移除掉,同时也省去了2min窗口消耗的巨大资源。

为什么选择ClickHouse

  • 调用链的Span数据是结构化的,适合大宽表场景
  • 调用链数据主表是单表,不涉及Join查询
  • 调研发现ClickHouse拥有不错的单表写入性能和查询性能
  • 调用链数据写多读少

调用链数据冷热存储

不管是调用链还是日志数据,历史数据的价值总比实时数据低,因此我们没必要对全量数据进行长时间存储,于是采用冷热存储的策略,对于实时数据进行全保留,存储周期根据数据量和集群磁盘容量来决定,数据量小可以存几天或者一周,数据量大可以存几小时。对于历史数据,比如30天内的数据,我们就需要进行采样存储:

  • 调用链路上出现Error
  • 请求耗时>=1s
  • 慢Sql请求
  • 自定义保留策略
  • 自适应采样机制
  • 用户查询过即保留
  • 测试环境全保留

实时消费进行调用链数据全保留

全保留的调用链数据是实时消费Kafka的。主要工作是将解析调用链原文日志,直接写入ClickHouse热数据表(全量表),其次进行简单的采样逻辑处理,即判断TraceId是否采样,可以快速判断每个Span是否发生Error,耗时是否超过阈值,是否慢Sql,是否满足保留等等策略,来决定该Span对应的TraceID是否需要保留,如果需要保留,那么将TraceID单独存入ClickHouse的另一张表「SampledTraceId」中。该逻辑对实时流来说性能影响不大。

延迟消费实现调用链采样

调用链采样流程是延迟处理的,并且同样采用尾部采样的策略,延迟消费流中,需要从「SampledTraceID」表中拉取需要采样的TraceID列表存入内存中,为了节约内存,可以使用Bloom Filter,虽然Bloom Filter有假阳性,但是对我们这个场景是可容忍的。采样流程会延迟30~60分钟消费调用链原文日志,再次完成解析。延迟消费的时间可长可短,毕竟实时数据我们有全量表,采样表只是存储采样后的历史数据,它的处理速度不会直接影响用户使用。

ClickHouse数据表和索引设计

涉及到的数据表:

集群 数据库 表名 表引擎 作用
trace_cluster monitor trace_span ReplicatedMergeTree 调用链Span数据表,存储分散的span数据
trace_cluster monitor trace_span_merge Merge Merge引擎不是MergeTree,它本身不存储数据,主要用于同时从任意多个trace_span表中并行读取数据。后文介绍其作用。
trace_cluster monitor trace_span_all Distributed Distributed引擎,即分布式引擎,主要用于分布式场景,可以在多个服务器上进行分布式并行查询。主要是借助每个服务器上的trace_span_merge表进行查询。
trace_cluster monitor mview_trace_time ReplicatedMergeTree 记录调用链TraceID、时间、服务信息。可以根据TraceID在monitor.mv_trace_time表中查询数服务列表和时间段(最小时间和最大时间),来加快调用链查询
trace_cluster monitor mview_trace_time_merge Merge Merge引擎不是MergeTree,它本身不存储数据,主要用于同时从任意多个mview_trace_time表中并行读取数据。后文介绍其作用。
trace_cluster monitor mview_trace_time_all Distributed Distributed引擎,即分布式引擎,主要用于分布式场景,可以在多个服务器上进行分布式并行查询。主要是借助每个服务器上的mview_trace_time_merge表进行查询。
trace_cluster monitor trace_time_mview - 物化视图:将Span的TraceID、时间和服务信息写入mview_trace_time表

Span数据表设计要点和经验

  • Span数据表存储的是调用链的span数据,是结构化的数据结构,因此我们除了通用的span字段需要创建,还可以根据业务需求,添加更多的业务信息,比如用户ID、订单ID等,利用ClickHouse大宽表的优势,尽量存储更多的信息,方便通过业务信息进行TraceID的过滤查询
  • 建议数据类型尽量保持"轻量级",如String,Int64等,不适合添加过多的像LowCardinality之类的类型,虽然对存储效率和查询效率会有所帮助,但是会对写入性能造成影响,由于是调用链全保留,因此优先考虑写入性能,多耗费一点存储,以及查询稍慢一点是不影响的
  • 排序索引要结合业务需求来考虑,如果直接根据TraceID进行排序,虽然能保证同一个TraceID的Span数据存储在一起,查询性能提高,但是如果产品上是先根据服务信息或其他业务信息先查询出所有Span,再根据Span的TraceID查询调用链,可能查询Span列表这个前置操作性能就不能得到保障(数据比较分散,ClickHouse查询时需要拉取更多的数据颗粒Granularity),当然这只是个例子,具体需要安装实际情况进行分析和验证
  • 根据实际查询需求,对经验用于过滤条件的字段创建二级索引(跳数索引),可以协助ClickHouse过滤掉更多的数据颗粒,减少数据颗粒的拉取个数
  • 不建议使用TTL进行过期清除,对于过期的Span,我们可以按分区的粒度一次性删除,虽然很粗暴,但是相比TTL更简单直接
  • 存储策略(storage_policy)配置尽量优先写入SSD,再迁移至HDD盘,因为实时数据是巨大的,我们尝试过轮流写入2块HDD盘,但是集群不稳定,写入性能还是跟不上,最后还是优先写入SSD,再定期迁移至HDD存储
  • 不一定别人的建议就是最优解,一定要多验证

Span数据表设计案例

Span信息表就是存储调用链数据的表,调用链是由多个Span组成,因此我们不是存储一条完整的调用链记录,而是将分散的Span结构化以后直接入库,再通过TraceID将同一条调用链上的Span查出来。

sql 复制代码
CREATE database IF NOT EXISTS monitor ON CLUSTER trace_cluster;

CREATE TABLE monitor.trace_span ON CLUSTER trace_cluster (
  `trace_id` String, // 调用链TraceID
  `span_id` String, // SpanID
  `parent_span_id` String, // 父SpanID
  `span_name` String, // Span名称
  `span_type` String, // Span类别
  `start_time` DateTime64(3, 'Asia/Shanghai'), // Span开始时间
  `end_time` DateTime64(3, 'Asia/Shanghai'), // Span结束时间
  `duration` Int64, // Span耗时
  `is_error` Int8, // 是否有Error
  `service` String, // 服务名称
  `cluster` String, // 环境名称
  `annotations` Map(String, String), // 附加信息
  `additional_annotations` Map(String, String), // 其他附加信息
  `timestamp` DateTime64(3, 'Asia/Shanghai'),
	// ...其他字段

  INDEX idx_duration duration TYPE minmax GRANULARITY 2,
  INDEX idx_user_id user_id TYPE bloom_filter GRANULARITY 2,
  INDEX idx_trace_id_set trace_id TYPE set(8192) GRANULARITY 1
) ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/{shard}/trace-span',
  '{replica}'
) PARTITION BY toYYYYMMDD(timestamp)
ORDER BY
  (service, cluster, span_type, timestamp) SETTINGS storage_policy = 'hot_to_cold',
  index_granularity = 8192

建表说明

  • 分区(PARTITION BY):toYYYYMMDD(start_time) 。 根据span创建时间按天分区。如果全量保存5天,那就是5个分区。

  • 排序索引/主键稀疏索引(ORDER BY):service, cluster, span_type, timestamp。 考虑到酷家乐在查询Span数据时过滤条件都包括:时间范围timestamp、服务信息service、环境信息cluster、Span类型span_type,因此按照这几个字段进行Group By,service字段在前面是为了同一个服务的span尽量都在同一个颗粒(Granularity)中,查询时减少颗粒扫描范围,加快查询速度。

  • 二级索引(跳数索引):

    • duration。由于耗时总是作为查询条件,因此考虑加一个跳数索引,统计数据颗粒的最小+最大耗时,利于数据颗粒的过滤。
    • http_uri_pattern。由于http_uri_pattern是常用的查询过滤条件,因此可以使用set优化查询。
    • user_id。由于userId没有在排序索引中,但是存在通过userId查询场景,因此可以使用Bloom Filter优化查询。
    • trace_id。在根据trace_id查询整条调用链的span时,需要通过trace_id来加速查询。

其他说明

  • 为什么没有使用低基数(LowCardinality):ClickHouse对于少于10,000个不同值的字段(实际上可以达到10w级别),可以使用LowCardinality数据类型,能显著提高SELECT的性能和存储效率(底层使用倒排索引进行优化存储和查询)。虽然对存储和查询有性能提高,但会影响写入性能,因此不考虑使用。
  • 为什么没有设置过期机制:此处没有使用自动删除的机制,例如:TTL toDateTime(start_time) + toIntervalDay(5) 。因为按天分区了,我们只需要起一个定时任务,定期一次性删除过期的分区即可,效率比较高。

建表Q&A

Q: 通过Span数据表的设计发现,它的Order By和分区都和TraceID没关系,都是为了加速Span的查询,但是我们查询调用链不只是查询Span,还会根据TraceID去查询整条调用链,我们知道一条调用链的Span是跨多个服务的,Span是相对比较分散的,那我们根据TraceID去查询的时候效率能得到保证吗?

A: 答案肯定是不行的,Span数据表这样设计也是无奈之举,因为在实际使用时,都是先查出Span列表,再根据Span列表的TraceID去拉取整条调用链,因此我们也要保证Span列表的查询效率。那至于如何优化根据TraceID查询整条调用链的所有Span,可以通过辅助表记录每个TraceID的时间范围和service集合,从而缩小查询范围。这点我们后文介绍。

物化视图MATERIALIZED VIEW的最佳实践

对于一条调用链的查询(根据TraceID查询场景),需要快速定位TraceID所属的分区、数据颗粒。前期我们尝试创建了 mview_trace_time 物化视图,保存了trace_id、service、timestamp,建表语句:

sql 复制代码
CREATE MATERIALIZED VIEW IF NOT EXISTS monitor.mview_trace_time ON CLUSTER trace_cluster 
ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/{shard}/mview_trace_time',
  '{replica}'
) PARTITION BY toYYYYMMDD(timestamp)
ORDER BY
  (trace_id) 
SETTINGS storage_policy = 'hot_and_cold',index_granularity = 8192 
AS SELECT
  trace_id,
  service,
  timestamp
FROM
  monitor.trace_span

在查询调用链时,先根据TraceID在物化视图表中查询出所在的时间范围和服务列表,再根据 时间范围+TraceID+服务列表 去主表Span数据表查询,这样能加快查询效率,但是后面发现物化视图查询性能没有想象中高,尝试通过添加二级索引发现物化视图不支持添加二级索引。

于是在github上提了一个issue,作者回复了一种方案:就是单独创建一个表存储物化视图的数据(目标表),再创建MV往目标表里写数据,就可以在目标表上添加二级索引。

目标表建表语句:

sql 复制代码
CREATE TABLE IF NOT EXISTS monitor.mv_trace_time ON CLUSTER trace_cluster (
  `trace_id` String,
  `service` String,
  `timestamp` DateTime64(3, 'Asia/Shanghai'),
  INDEX idx_trace_id trace_id TYPE
  set(9000) GRANULARITY 1
) ENGINE = ReplicatedMergeTree(
  '/clickhouse/tables/{shard}/mv_trace_time',
  '{replica}'
) PARTITION BY toYYYYMMDD(timestamp)
ORDER BY
  (trace_id, service) SETTINGS storage_policy = 'hot_to_cold',
  index_granularity = 8192

由于ORDER BY已经有索引作用,因此不再添加其他二级索引,

然后创建MV往目标表里写数据:

sql 复制代码
CREATE MATERIALIZED VIEW monitor.trace_time_mview ON CLUSTER trace_cluster 
TO monitor.mv_trace_time (
  `trace_id` String,
  `service` String,
  `timestamp` DateTime64(3, 'Asia/Shanghai')
) AS
SELECT
  trace_id,
  service,
  timestamp
FROM
  monitor.trace_span

这样一来,Span数据往monitor.trace_span表中写数据时,就会自动往物化视图的目标表里写入trace_id、service、timestamp。那么,我们在根据TraceID查询调用链前,可以先根据TraceID在monitor.mv_trace_time表中查询数service列表和时间段(最小时间和最大时间),通过这两个字段足以缩小颗粒的扫描范围,加快查询速度。

Merge表设计

对于存储数据的表,它还只是一个本地表,我们登录到其中一台服务器上查询monitor.trace_span表的数据时,返回的只是当前一个服务器节点的数据,并没有其他服务器节点的数据,当然Merge表的作用也不是为了进行分布式查询,它是作为分布式查询的桥梁。

我们通过一个场景来说明Merge表的妙用。

在平时运维过程中,集群并不是一直稳定的,可能会因为各种原因导致monitor.trace_span表无法写入数据,出现ReadOnly模式,为了尽快修复,我们一般会将monitor.trace_span表改为monitor.trace_span_20231024,然后新创建一个monitor.trace_span表,那么新数据就照样往monitor.trace_span中写,旧数据就存在于monitor.trace_span_20231024表中(可能不止这一个版本)。那我们怎么让集群能查到monitor.trace_span_20231024中的数据呢,我们可以创建这样一个Merge表:

sql 复制代码
CREATE TABLE IF NOT EXISTS monitor.trace_span_merge ON CLUSTER trace_cluster 
AS monitor.trace_span 
ENGINE = Merge("monitor", '^trace_span($|(.*\d$))')

monitor.trace_span_merge不存任何数据,但是他可以代理查询所有monitor.trace_span_xxx的本地表,相当于在单个服务器上,将该服务器上所有版本的monitor.trace_span表的数据查询返回。

Distributed表设计

Merge表只是在单个服务器上发挥作用,在集群模式下,进行分布式查询时,就需要用到Distributed表,它的作用就是为了查询所有服务器上的数据,因此最好是通过统一的表名去查询(比如Merge表,因为只会有一个版本),因此我们可以创建对应的分布式引擎表:

sql 复制代码
CREATE TABLE IF NOT EXISTS monitor.trace_span_all ON CLUSTER trace_cluster
AS monitor.trace_span_merge 
ENGINE = Distributed(trace_cluster, monitor, trace_span_merge)

那么集群就可以通过trace_span_all表去分布式查询所有服务器上的数据,查询每台服务器上的数据时,通过Merge表trace_span_merge去查询多个版本的monitor.trace_span数据表。

ClickHouse冷热数据迁移

为了保证写入性能,实时的调用链数据都往固态硬盘SSD写,然后在低峰期(夜晚)起定时任务将SSD上的热数据迁移到机械硬盘HDD上。

1.先查出数据表的所有分区

sql 复制代码
SELECT table, partition
FROM system.parts
WHERE database = 'monitor'
GROUP BY (table,partition)
ORDER BY (table,partition) ASC

查询结果:

2.将每个分区SSD上的数据迁移到HDD

sql 复制代码
ALTER TABLE monitor.trace_span MOVE PART '20231224' TO VOLUME 'cold_volume'

ClickHouse过期数据删除

全保留如果只保留5天,那么就需要把5天前的所有partition删除,因为我们按天分区,可以一次性删除一个partition即一天的数据。

sql 复制代码
ALTER TABLE monitor.trace_span DROP PARTITION '20231224'

ClickHouse Sink的优化

关于clickhouse-sink,我们选择的是 github.com/ivi-ru/flin...,并在这基础上做了一个改进和优化:

  • 新增自适应屏蔽异常主机节点机制
  • 新增集群节点的写入权重配置,不同的机器设置不同的写入比例,解决不同机器性能差异问题
  • 支持配置数据写入多个ClickHouse集群

写入时,每次批量写入Span数据。

总结

本文介绍了酷家乐监控团队使用ClickHouse进行调用链全保留的最终实践方案,相比Elasticsearch,ClickHouse可以无压力全量写入,即使面对流量上涨,也可以添加服务器进行集群的快速扩容,虽然查询的性能相比Elasticsearch可能较慢,但是也能满足用户的需求。在灰发期间,我们也遇到了各种问题,经过不断的调整、优化,积累了运维经验,整理出我们最终的实践方案,笔者水平有限,如有遗漏错误之处,欢迎大家留言讨论。

参考文献

[1]【链路追踪】采样那些事儿

[2] 得物云原生全链路追踪Trace2.0架构实践

[3] Skywalking 使用 ClickHouse 存储实践,性能提高 N 倍

[4] clickhouse.com/

[5] doris.apache.org/

[6] dbaplus.cn/news-73-415...

相关推荐
玉红77743 分钟前
R语言的数据类型
开发语言·后端·golang
lvbu_2024war012 小时前
MATLAB语言的网络编程
开发语言·后端·golang
问道飞鱼2 小时前
【Springboot知识】Springboot进阶-实现CAS完整流程
java·spring boot·后端·cas
Q_19284999062 小时前
基于Spring Boot的电影网站系统
java·spring boot·后端
豌豆花下猫2 小时前
Python 潮流周刊#83:uv 的使用技巧(摘要)
后端·python·ai
凡人的AI工具箱3 小时前
每天40分玩转Django:Django部署概述
开发语言·数据库·后端·python·django
SomeB1oody3 小时前
【Rust自学】7.2. 路径(Path)Pt.1:相对路径、绝对路径与pub关键字
开发语言·后端·rust
SomeB1oody3 小时前
【Rust自学】7.3. 路径(Path)Pt.2:访问父级模块、pub关键字在结构体和枚举类型上的使用
开发语言·后端·rust
Bony-4 小时前
Go语言反射从入门到进阶
开发语言·后端·golang
凡人的AI工具箱4 小时前
每天40分玩转Django:Django Email
数据库·人工智能·后端·python·django·sqlite