Jaeger深度解析

第一部分：Jaeger核心架构与设计哲学

Jaeger作为云原生时代分布式追踪系统的标杆，其架构设计体现了对复杂微服务环境的深刻理解。整个系统围绕"低侵入、高扩展、强一致"三大原则构建，成为诊断分布式系统问题的"X光机"。

核心组件与数据流

Jaeger采用典型的分层架构，各组件通过明确定义的接口协作：

• 客户端库：作为应用程序的"探针"，以OpenTracing API标准实现数据采集。支持Go/Java/Python等主流语言，通过约200KB的轻量级二进制嵌入目标进程。关键采集逻辑如下：

go 复制代码

// Go语言示例：创建根Span
tracer := opentracing.GlobalTracer()
span := tracer.StartSpan("operation_name")
defer span.Finish()

// 添加标签和日志
span.SetTag("http.method", "GET")
span.LogKV("event", "cache_miss", "key", "user123")

• Agent：部署于每个主机的守护进程，通过UDP接收Span数据（默认端口6831）。采用零拷贝技术和环形缓冲区设计，单节点可处理10万+ spans/秒。其批处理机制将数据压缩后转发给Collector，网络中断时自动缓存最新500MB数据。

• Collector：系统的"大脑"，负责验证、索引和存储Span数据。采用管道架构处理数据：

复制代码

接收队列 → 解码器 → 校验器 → 索引器 → 存储适配器

支持弹性扩展，单个Collector节点可处理约2万 spans/秒。

• 存储层：插件化设计，主要选项包括：

Cassandra：适合大规模部署，写入性能优异
Elasticsearch：支持全文检索和复杂分析
Kafka：作为缓冲层实现削峰填谷

• Query Service：提供RESTful API和Web UI，采用多级缓存加速查询。对于包含1000+ spans的长链路查询，响应时间通常在500ms内。

追踪数据模型解析

Jaeger的数据模型基于OpenTracing标准，核心概念包括：

• Trace：代表完整的请求链路，通过全局唯一的TraceID标识。例如一次用户登录可能涉及6个微服务，形成包含20+ spans的Trace。

• Span：基本工作单元，包含：

json 复制代码

{
  "traceID": "5f8f1a9e2c6b4d",
  "spanID": "7a3b5c9d",
  "operationName": "DB_Query",
  "startTime": 1611318628515966,
  "duration": 12,
  "tags": {
    "db.type": "mysql",
    "db.statement": "SELECT * FROM users"
  },
  "references": [
    {"type": "CHILD_OF", "spanID": "3e2f1a5b"}
  ]
}

• SpanContext：跨服务传递的上下文信息，包含：

TraceID/SpanID：用于构建调用链
Baggage Items：全局键值对，可用于传递业务参数
Sampling Flags：决定是否记录当前Trace

上下文传播机制

Jaeger支持三种传播协议：

Jaeger原生头信息 ：通过HTTP头uber-trace-id传递
B3协议 ：兼容Zipkin的X-B3-TraceId等头信息
W3C TraceContext：符合最新行业标准

传播示例（HTTP头）：

复制代码

uber-trace-id: 5f8f1a9e2c6b4d:7a3b5c9d:0:1
x-b3-traceid: 5f8f1a9e2c6b4d
traceparent: 00-5f8f1a9e2c6b4d-7a3b5c9d-01

这种设计确保了跨语言、跨框架的互操作性，即使混合使用Java Spring和Go gRPC服务也能构建完整调用链。

第二部分：关键技术实现与优化

采样策略精要

Jaeger的采样决策发生在Trace的第一个Span（根Span），后续Span继承该决策。支持四种策略：

• 恒定采样（Const）：全采样或全不采样，适合测试环境

yaml 复制代码

sampler:
  type: const
  param: 1  # 1=全采样，0=不采样

• 概率采样（Probabilistic）：按固定比例采样，默认0.1%

yaml 复制代码

sampler:
  type: probabilistic
  param: 0.001  # 千分之一采样率

• 速率限制采样（Rate Limiting）：控制单位时间采样数

yaml 复制代码

sampler:
  type: ratelimiting
  param: 10  # 每秒最多10个Trace

• 远程采样（Remote）：动态获取采样策略，支持按服务/端点设置不同采样率

自适应采样是Jaeger的高级特性，它能根据流量变化动态调整采样率。核心算法：

复制代码

目标采样数R = 10 traces/秒
实际采样数R' = 当前收集的trace数
调整因子α = 0.2  # 平滑系数

新采样率p' = p * (1 + α*(R - R')/R)

这种PID控制器式的方法确保了采样量稳定，避免存储过载。

存储引擎设计

Jaeger的数据存储面临两大挑战：高写入吞吐和复杂查询需求。其存储设计亮点包括：

• 双重索引：

TraceID索引：用于精确查询单个Trace
时间范围索引：支持按时间过滤
服务名索引：加速服务维度查询

• Cassandra优化：

sql 复制代码

CREATE TABLE jaeger_v1.traces (
  trace_id blob PRIMARY KEY,
  spans list<blob>  # 使用Cassandra的集合类型存储关联Span
) WITH compaction = {
  'class': 'TimeWindowCompactionStrategy',
  'compaction_window_unit': 'DAYS',
  'compaction_window_size': 1
}

采用时间窗口压缩策略(TWCS)优化时序数据存储。

• Elasticsearch映射：

json 复制代码

{
  "mappings": {
    "properties": {
      "startTime": {"type": "date_nanos"},
      "duration": {"type": "long"},
      "tags": {
        "type": "nested",
        "properties": {
          "key": {"type": "keyword"},
          "value": {"type": "keyword"}
        }
      }
    }
  }
}

嵌套文档设计加速标签过滤查询。

性能优化实践

• 客户端优化：

异步上报：Span数据先存入本地队列，后台线程批量发送
零拷贝序列化：采用Thrift二进制协议，比JSON节省40%带宽
短路设计：未采样的Trace跳过标签收集等耗时操作

• 服务端优化：

批处理：Agent将多个Span打包发送，减少网络往返
写入合并：Collector对相同Trace的Span合并存储
读写分离：Query服务使用只读副本减轻主库压力

• 资源控制：

yaml 复制代码

# Collector配置示例
collector:
  queue-size: 2000  # 内存队列大小
  workers: 50       # 并发处理线程数
  grpc-max-msg-size: 4194304  # 4MB消息限制

这些优化使得Jaeger在生产环境中实现：

小于1%的应用性能影响（P99延迟增加<5ms）
单Collector节点日处理能力超过10亿Span
千万级Trace数据的查询响应时间亚秒级

第三部分：Jaeger解决的五大核心问题

问题1：跨服务调用链可视化

在微服务架构中，单个用户请求可能涉及数十个服务调用。Jaeger通过TraceID串联这些调用，形成完整的"火焰图"。例如一个电商订单创建可能包含：

复制代码

前端 → 网关 → 订单服务 → 库存服务 → 支付服务 → 消息队列 → 物流服务

通过可视化展示各Span的耗时和层级关系，开发者能快速定位性能瓶颈。

问题2：分布式上下文传递

Jaeger的Baggage机制允许在调用链中传递业务上下文：

go 复制代码

// 设置Baggage项
span.SetBaggageItem("user-id", "12345")

// 下游服务获取
userID := span.BaggageItem("user-id")

这在以下场景特别有用：

全链路日志标记
灰度发布标识
跨服务权限校验

问题3：精准的性能分析

Jaeger的Span包含精确的时间戳（微秒级）和丰富的指标：

json 复制代码

{
  "operationName": "MySQL_Query",
  "duration": 45,
  "tags": {
    "db.instance": "orders_db",
    "db.statement": "SELECT * FROM orders WHERE user_id=?",
    "db.row_count": "128"
  }
}

通过这些数据可以：

识别慢查询（duration > 100ms）
发现N+1查询问题（大量相似短查询）
监控外部依赖性能

问题4：系统拓扑发现

Jaeger定期分析Trace数据生成服务依赖图：

复制代码

服务A → 服务B (QPS: 1200, 错误率: 0.2%)
服务B → 服务C (QPS: 800, 错误率: 1.5%)
服务C → Redis (QPS: 3000, 平均延迟: 2ms)

这种拓扑图帮助运维人员：

识别不合理的依赖关系
评估服务下线影响
规划容量扩展

问题5：故障根因分析

当系统出现异常时，Jaeger可以：

通过错误标签过滤异常Trace

json 复制代码

{"tags": {"error": true}}

比较正常和异常Trace的路径差异
分析异常Span的日志和标签
定位首次出现异常的服务节点

典型应用场景包括：

级联故障分析
超时问题诊断
数据不一致排查

第四部分：高级特性与最佳实践

自适应采样详解

Jaeger的自适应采样算法包含以下关键步骤：

数据收集：Collector统计每个服务端点接收到的Trace数量
速率计算：比较实际采样率与目标值（如10 traces/秒）
概率调整：使用PID控制器动态调整采样概率
策略分发：通过Agent将新策略推送给客户端

配置示例：

yaml 复制代码

collector:
  adaptive-sampling:
    target-samples-per-second: 10
    initial-sampling-probability: 0.01
    delta-tolerance: 0.1  # 允许10%波动

安全增强方案

• 传输加密：Agent与Collector间启用TLS

yaml 复制代码

agent:
  tls:
    enabled: true
    cert: /path/to/cert.pem
    key: /path/to/key.pem

• 存储脱敏：在Collector端过滤敏感标签

yaml 复制代码

collector:
  tag-filter:
    deny: ["password", "credit_card"]

• 访问控制：基于角色的查询权限管理

sql 复制代码

-- Cassandra权限示例
CREATE ROLE jaeger_reader WITH LOGIN = true AND PASSWORD = 'secure';
GRANT SELECT ON KEYSPACE jaeger_v1 TO jaeger_reader;

大规模部署建议

对于日处理千亿级Span的场景：

• 存储分层：

热数据（7天内）：Elasticsearch集群
温数据（30天内）：Cassandra集群
冷数据：对象存储（如S3）

• 组件扩展：

Agent：每主机部署，无需扩展
Collector：按每5万 spans/秒/节点扩展
Query：按QPS扩展，建议至少3节点

• 关键监控指标：

jaeger_collector_spans_received
jaeger_query_latency_bucket
storage_backend_operation_duration_seconds

与监控系统集成

Jaeger可与Prometheus等系统联动：

指标导出：将Span数据转为RED指标（请求数/错误率/耗时）

yaml 复制代码

metrics-backend: prometheus
prometheus:
  endpoint: "prometheus:9090"

告警规则：基于追踪数据设置告警

yaml 复制代码

groups:
- name: tracing-alerts
  rules:
  - alert: HighDBLatency
    expr: avg(jaeger_span_duration{operation=~"DB_.*"}) by (service) > 0.1
    for: 5m

联合查询：在Grafana中同时展示指标和追踪数据

第五部分：典型问题排查模式

场景1：全局耗时增长

排查步骤：

筛选耗时超过阈值的Trace
比较各服务P99延迟变化
定位延迟突增的服务节点
分析该服务的Span标签和日志

常见原因：

下游服务性能下降
网络链路问题
资源竞争（如连接池耗尽）

场景2：部分请求失败

排查步骤：

过滤包含error标签的Trace
分析错误首次出现的服务
检查错误传播路径
关联日志和异常堆栈

常见原因：

参数校验失败
依赖服务异常
数据一致性问题

场景3：调用链路中断

排查步骤：

确认TraceID是否在服务间传递
检查各服务采样率配置
验证网络连通性（Agent到Collector）
查看存储系统负载

常见原因：

上下文传播未正确实现
采样率设置过低
UDP数据包丢失

性能调优案例

问题现象：订单提交链路P99延迟从200ms增长到800ms

分析过程：

Jaeger显示支付服务耗时增加
发现支付服务调用风控服务超时
进一步分析显示风控服务数据库查询慢
确认数据库缺少用户ID索引

解决方案：

添加数据库索引
引入查询缓存
优化后P99延迟降至150ms

第六部分：Jaeger的扩展性与生态系统

插件化架构设计

Jaeger采用模块化设计，关键组件均可通过接口扩展：

• 存储插件 ：除内置的Cassandra/Elasticsearch外，可通过实现SpanWriter接口支持新数据库

go 复制代码

type SpanWriter interface {
    WriteSpan(span *model.Span) error
}

• 采样插件 ：自定义采样策略需实现Sampler接口

go 复制代码

type Sampler interface {
    IsSampled(traceID TraceID, operation string) (bool, []Tag)
}

• 导出插件 ：将数据转发到其他系统，如实现SpanExporter对接Kafka

go 复制代码

type SpanExporter interface {
    ExportSpans(spans []*model.Span) error
}

与OpenTelemetry的融合

Jaeger逐步兼容OpenTelemetry协议，关键集成点：

• 协议转换：通过OpenTelemetry Collector将OTLP数据转为Jaeger格式

yaml 复制代码

receivers:
  otlp:
    protocols:
      grpc:
      http:

exporters:
  jaeger:
    endpoint: "jaeger-collector:14250"
    tls:
      insecure: true

• SDK适配：OpenTelemetry SDK可直接上报数据到Jaeger

python 复制代码

from opentelemetry import trace
from opentelemetry.exporter.jaeger import JaegerSpanExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor

trace.set_tracer_provider(TracerProvider())
jaeger_exporter = JaegerSpanExporter(
    agent_host_name="jaeger-agent",
    agent_port=6831,
)
trace.get_tracer_provider().add_span_processor(
    BatchSpanProcessor(jaeger_exporter)
)

服务网格集成

在Istio等服务网格中，Jaeger可自动捕获网格流量：

• Sidecar代理：Envoy自动生成Trace并注入HTTP头

yaml 复制代码

# Istio配置示例
apiVersion: networking.istio.io/v1alpha3
kind: VirtualService
metadata:
  name: productpage
spec:
  hosts:
  - productpage
  http:
  - route:
    - destination:
        host: productpage
    tracing:
      sampling: 10%
      customTags:
        "user":
          header:
            name: "end-user"

• 数据关联：将服务网格指标与Jaeger追踪数据通过TraceID关联

第七部分：性能调优实战指南

存储层优化

针对不同存储后端的优化策略：

• Cassandra优化：

sql 复制代码

ALTER TABLE jaeger_v1.traces 
WITH compaction = {
    'class': 'TimeWindowCompactionStrategy',
    'compaction_window_size': 1,
    'compaction_window_unit': 'DAYS'
}
AND gc_grace_seconds = 86400;

• Elasticsearch优化：

json 复制代码

PUT /jaeger-span-*/_settings
{
  "index" : {
    "refresh_interval" : "30s",
    "number_of_replicas" : 1,
    "translog.durability" : "async"
  }
}

查询性能提升

• 索引策略：为常用过滤字段创建复合索引

json 复制代码

PUT /jaeger-span-*/_mapping
{
  "properties": {
    "operationName": {"type": "keyword"},
    "tags.user_id": {"type": "keyword"}
  }
}

• 缓存配置：调整Query服务缓存大小

yaml 复制代码

query:
  cache:
    enabled: true
    size: 100000  # 缓存10万条Trace
    ttl: 10m      # 缓存有效期10分钟

资源限制管理

• 客户端限制：防止过度采样影响应用性能

java 复制代码

// Java配置示例
Configuration.SamplerConfiguration samplerConfig = 
    new Configuration.SamplerConfiguration()
        .withType("ratelimiting")
        .withParam(100);  // 每秒最多100个Trace

Configuration.ReporterConfiguration reporterConfig =
    new Configuration.ReporterConfiguration()
        .withMaxQueueSize(5000);  // 队列大小限制

• 服务端限流：保护后端存储

yaml 复制代码

collector:
  ratelimit: 
    enabled: true
    requestsPerSecond: 5000  # 每秒最大请求数

第八部分：安全与合规实践

数据隐私保护

• 敏感信息过滤：在Agent端过滤敏感标签

yaml 复制代码

agent:
  processors:
    - model: "jaeger"
      filters:
        - type: "tag"
          tag: "credit_card"
          action: "delete"

• 访问日志审计：记录所有查询操作

yaml 复制代码

query:
  audit-log:
    enabled: true
    path: "/var/log/jaeger/audit.log"

合规性配置

• 数据保留策略：满足GDPR等法规要求

yaml 复制代码

storage:
  cassandra:
    ttl: 168h  # 7天数据保留
  elasticsearch:
    ilm:
      enabled: true
      policy: "jaeger-30days"

• 角色权限分离：

sql 复制代码

-- 创建只读账户
CREATE USER jaeger_reader WITH PASSWORD 'secure';
GRANT SELECT ON ALL TABLES IN SCHEMA jaeger_v1 TO jaeger_reader;

第九部分：故障诊断与恢复

常见问题排查

• 数据丢失排查：

检查Agent日志确认数据发送
验证Collector接收队列状态
检查存储系统写入是否成功

• 查询超时处理：

优化Elasticsearch分片设置
增加Query服务内存
添加查询超时参数

yaml 复制代码

query:
  max-query-duration: "30s"

灾难恢复方案

• 备份策略：

bash 复制代码

# Cassandra快照备份
nodetool snapshot -t jaeger_backup jaeger_v1

• 恢复流程：

停止所有Jaeger服务
恢复Cassandra快照
重建Elasticsearch索引
逐步重启服务

第十部分：新兴场景与前沿实践

无服务架构追踪

在Serverless环境中Jaeger的适配方案：

• 上下文传递：通过函数环境变量携带TraceID

python 复制代码

# AWS Lambda示例
def handler(event, context):
    tracer = opentracing.tracer
    span_ctx = tracer.extract(
        format=Format.TEXT_MAP,
        carrier=event['headers']
    )
    span = tracer.start_span("lambda_handler", child_of=span_ctx)

• 异步调用追踪：使用FollowsFrom引用关系

go 复制代码

span.SetTag("async", true)
span.FinishWithOptions(opentracing.FinishOptions{
    LogRecords: []opentracing.LogRecord{
        {Timestamp: time.Now(), Fields: []log.Field{
            log.String("event", "dispatched"),
        }},
    },
})

机器学习辅助分析

Jaeger数据在AIops中的应用：

• 异常检测：利用Span数据训练异常模式识别模型

python 复制代码

from sklearn.ensemble import IsolationForest

# 基于耗时、错误码等特征训练模型
clf = IsolationForest()
clf.fit(X_train)

• 根因分析：构建服务依赖图的异常传播模型

第十一部分：Jaeger在复杂环境下的特殊处理

混合云场景适配

在跨公有云和私有云的混合架构中，Jaeger需要特殊配置以确保追踪数据完整性：

• 跨网络区域连接：通过中继Collector解决网络隔离问题

yaml 复制代码

# 边缘区域Agent配置
agent:
  collector:
    host-port: "relay-collector.internal:14250"
    tls:
      enabled: true
      ca: "/path/to/ca.pem"

• 时钟同步方案：当节点间存在时钟偏差时，启用时钟偏移校正

yaml 复制代码

collector:
  clock-skew-correction:
    enabled: true
    max-adjustment: "500ms"  # 允许最大校正值

大规模批处理作业追踪

对于Spark/Flink等批处理系统，传统采样策略可能失效，需要特殊处理：

• 作业感知采样：根据作业ID而非请求量决定采样率

java 复制代码

// Flink作业中自定义采样器
public class JobAwareSampler implements Sampler {
    @Override
    public SamplingStatus sample(String operation, long traceId) {
        String jobId = getCurrentJobId();
        return shouldSampleJob(jobId) ? 
            SamplingStatus.SAMPLED : SamplingStatus.NOT_SAMPLED;
    }
}

• 阶段标记：为批处理的不同阶段添加特定标签

python 复制代码

# Spark作业中添加阶段标签
span.set_tag("batch.stage", "data_cleaning")
span.set_tag("batch.partition", partition_id)

第十二部分：高级配置技巧

动态控制平面

通过Jaeger的远程配置API实现运行时调整：

• 动态采样策略更新：

bash 复制代码

# 更新采样策略配置
curl -X POST http://jaeger-collector:5778/sampling?service=payment \
  -H "Content-Type: application/json" \
  -d '{"strategy":"probabilistic","param":0.5}'

• 实时标签过滤规则：

yaml 复制代码

# 动态添加敏感字段过滤
agent:
  processors:
    - model: "jaeger"
      filters:
        - type: "tag"
          tag: "${DYNAMIC_FILTER_FIELD}"
          action: "delete"

多租户支持

在SaaS环境中为不同租户隔离追踪数据：

• 存储隔离：通过Cassandra键空间或ES索引前缀实现

yaml 复制代码

storage:
  cassandra:
    keyspace: "jaeger_tenant_${TENANT_ID}"
  elasticsearch:
    index-prefix: "jaeger-${TENANT_ID}-"

• 查询鉴权：在Query服务前增加认证代理

go 复制代码

// 租户上下文拦截器
func TenantInterceptor(ctx context.Context, req *spanstore.TraceQueryParameters) {
    tenantID := auth.GetTenant(ctx)
    req.Tags["tenant.id"] = tenantID
}

第十三部分：性能关键路径优化

写入路径深度优化

• 零拷贝网络传输：Agent使用RingBuffer减少内存复制

c 复制代码

// 伪代码展示环形缓冲区设计
struct RingBuffer {
    volatile uint64_t head;
    volatile uint64_t tail;
    char buffer[BUFFER_SIZE];
};

void enqueue(RingBuffer* rb, const char* data) {
    while (rb->head - rb->tail >= BUFFER_SIZE) {
        // 等待空间
    }
    memcpy(rb->buffer + (rb->head % BUFFER_SIZE), data, len);
    rb->head += len;
}

• 批处理压缩：Collector使用Snappy压缩批量Span

yaml 复制代码

collector:
  zipkin:
    compression: "snappy"  # 减少40%网络带宽

查询路径加速

• 热点缓存：对高频查询Trace进行内存缓存

go 复制代码

type HotTraceCache struct {
    sync.RWMutex
    traces map[TraceID]*Trace
    lru    *list.List
}

func (c *HotTraceCache) Get(id TraceID) (*Trace, bool) {
    c.RLock()
    defer c.RUnlock()
    if trace, ok := c.traces[id]; ok {
        return trace, true
    }
    return nil, false
}

• 预计算统计：定期生成服务依赖关系图

sql 复制代码

-- Cassandra物化视图加速查询
CREATE MATERIALIZED VIEW jaeger_v1.service_dependencies AS
SELECT service, dependencies, window
FROM traces
WHERE service IS NOT NULL
PRIMARY KEY (service, window);

第十四部分：新兴协议支持

W3C TraceContext 深度集成

Jaeger对W3C标准的完整支持方案：

• 头信息解析：兼容traceparent/tracestate格式

复制代码

traceparent: 00-4bf92f3577b34da6a3ce929d0e0e4736-00f067aa0ba902b7-01
tracestate: jaeger=00f067aa0ba902b7,custom=value

• 状态传播：在跨系统边界时保持状态一致性

java 复制代码

// Java中的W3C传播器
TextMapPropagator propagator = 
    W3CTraceContextPropagator.getInstance();
SpanContext context = propagator.extract(
    carrier,
    TextMapGetter<Map<String,String>>() { /*...*/ }
);

OpenTelemetry Protocol(OTLP)适配

Jaeger作为OTLP终端的配置示例：

yaml 复制代码

receivers:
  otlp:
    protocols:
      grpc:
      http:

exporters:
  jaeger:
    endpoint: "jaeger-collector:14250"
    tls:
      insecure: false

service:
  pipelines:
    traces:
      receivers: [otlp]
      exporters: [jaeger]

第十五部分：极限场景考验

亿级Span日处理方案

当日均Span超过1亿时，需要特殊架构设计：

• 分层收集：

复制代码

[边缘Agent] → [区域Collector] → [全局聚合器] → [存储集群]

• 存储分片策略：

yaml 复制代码

storage:
  cassandra:
    sharding:
      enabled: true
      keys: ["service","date"]  # 按服务和日期分片

• 分级存储：

热数据：SSD存储最近2小时数据
温数据：普通磁盘存储7天内数据
冷数据：对象存储归档历史数据

超长链路追踪

当单个Trace包含超过1万个Span时：

• 分段加载：Query服务分批获取Span数据

go 复制代码

func GetTrace(traceID string) (*Trace, error) {
    for {
        spans, hasMore := storage.GetSpans(traceID, lastSpanID, batchSize)
        if !hasMore {
            break
        }
        // 处理批次
    }
}

• 采样优化：对大型Trace启用子采样

yaml 复制代码

sampling:
  deep-trace:
    enabled: true
    max-spans: 1000  # 单个Trace最多保留1000个Span

第十六部分：最佳实践总结

黄金配置准则

• 基础配置模板：

yaml 复制代码

agent:
  http-server:
    host-port: ":5778"
  processors:
    jaeger:
      workers: 10
      queue-size: 1000

collector:
  grpc:
    host-port: ":14250"
  zipkin:
    host-port: ":9411"
  health-check:
    http-port: ":14269"

query:
  base-path: "/jaeger"
  static-assets: "/opt/jaeger-ui"

性能调优检查清单

客户端检查：
- 采样率是否合理
- 异步上报是否开启
- 标签数量是否受控
服务端检查：
- Collector队列监控
- 存储层IOPS利用率
- 查询服务缓存命中率
网络检查：
- Agent到Collector延迟
- 跨区域传输压缩
- DNS解析性能

灾难恢复演练

定期执行的验证流程：

数据完整性验证：

bash 复制代码

# 随机抽样检查Trace完整性
jaeger-check-trace --storage=cassandra --sample=0.01

故障切换测试：
- 模拟Collector节点故障
- 验证存储集群主从切换
- 测试查询服务降级能力
备份恢复测试：
- 定期恢复测试环境验证备份有效性
- 测量恢复时间目标(RTO)是否符合SLA