分布式链路追踪入门篇-基础原理与快速应用

为什么需要链路追踪?

我们程序员在日常工作中,最常做事情之一就是修bug了。如果程序只是运行在单机上,我们最常用的方式就是在程序上打日志,然后程序运行的过程中将日志输出到文件上,然后我们根据日志去推断程序是哪一步发生了问题。但是如果我们的程序是部署在分布式架构的各个服务上,我们再用这种方法去查看一个又一个日志文件,这就显得非常的低效了。所以这时候如果有一个可以帮助我们根据时间脉络将所有的信息都汇集起来并以可视化的方式直观展示给我们看,我们的bugfix是不是就变得事半功倍了呢?

一、什么是链路追踪?

链路追踪(Distributed Tracing)是一种用于监测和诊断分布式应用程序中请求路径的技术。在分布式系统中,单个请求可能会涉及多个服务和组件。链路追踪通过记录和分析请求在这些服务之间的传递路径和执行情况,帮助开发人员和运维团队理解系统的运行状况、性能和问题。

二、链路追踪是怎么实现的?

1.链路追踪关键概念介绍

  • Span(片段): 在链路追踪中,Span 是描述单个操作或事件的基本单元。一个请求被分解成一个或多个 Span,每个 Span 表示一个操作的开始和结束。例如,一个数据库查询、一个 HTTP 请求、一个函数调用等都可以作为一个 Span。
  • Context(上下文): 在链路追踪中,上下文是指跨越不同服务的信息传递。每个 Span 都关联一个上下文,允许跟踪系统将相关的 Span 连接起来,以显示请求的完整路径。
  • Trace ID(追踪标识)Trace ID 是整个请求路径的唯一标识符。它用于将整个请求的所有 Span 关联到同一个 Trace 中。当一个请求进入系统时,生成一个唯一的 Trace ID,并在整个请求过程中一直保持不变,以确保所有的 Span 都能够关联到同一个 Trace 中
  • Span ID(Span 标识): Span ID 是用于标识单个操作或事件的唯一标识符。每个 Span 都有自己的 Span ID,它用于在 Trace 中标识不同的操作或事件。

2.span是怎么基于context进行关联的?

由上面的概念我们大概可以想象到,一条追踪链路其实是由多个span组成的,而span之间是基于每一个span的context进行关联 (即根据context里的同一个trace id进行关联)

三、OpenTelemetry、Jaeger这些和链路追踪有什么关系?

  • OpenTelemetry 是一个用于跟踪和监控分布式系统的开放式标准和工具集。它提供了一套标准的API 和工具,用于生成、导出和聚合跟踪数据,并将这些数据发送到各种后端,如 Jaeger、Zipkin、Prometheus 等。
  • Jaeger这些系统为链路追踪提供了一种可视化和分析分布式系统的能力,通过记录请求的执行路径和操作(span),在一个直观的用户界面中展示整个系统中的请求传播路径和性能数据。

四、怎么快速使用OpenTelemetry、Jaeger实现一个链路追踪的demo

  • 步骤1 :需要安装Jaeger,并运行Jaeger。Jaeger官方入门文档
    为了快速演示,我们可以使用官方推荐的测试方式用docker快速启动:

    bash 复制代码
    docker run --rm --name jaeger \
      -e COLLECTOR_ZIPKIN_HOST_PORT=:9411 \
      -p 6831:6831/udp \
      -p 6832:6832/udp \
      -p 5778:5778 \
      -p 16686:16686 \
      -p 4317:4317 \
      -p 4318:4318 \
      -p 14250:14250 \
      -p 14268:14268 \
      -p 14269:14269 \
      -p 9411:9411 \
      jaegertracing/all-in-one:1.51

    然后,打开http://localhost:16686就可以访问 Jaeger UI了。

  • 步骤2:运行下面代码,具体代码请拉取我github上的demo

go 复制代码
package main

import (
	"context"
	"fmt"
	"log"
	"net/http"
	
	"go.opentelemetry.io/otel"
	`go.opentelemetry.io/otel/attribute`
	"go.opentelemetry.io/otel/exporters/trace/jaeger"
	`go.opentelemetry.io/otel/sdk/resource`
	sdktrace "go.opentelemetry.io/otel/sdk/trace"
	`go.opentelemetry.io/otel/semconv`
	
	svc `otel/demo1/svc`
)

// 初始化 OpenTelemetry
func initTracer() *sdktrace.TracerProvider {
	exporter, err := jaeger.NewRawExporter(
		jaeger.WithAgentEndpoint(func(options *jaeger.AgentEndpointOptions) {
			options.Host = "localhost"
			options.Port = "6831"
		}),
	)
	if err != nil {
		log.Fatalf("Error creating Jaeger exporter: %v", err)
	}
	
	tp := sdktrace.NewTracerProvider(
		sdktrace.WithBatcher(exporter),
		sdktrace.WithSampler(sdktrace.AlwaysSample()),
		sdktrace.WithResource(resource.NewWithAttributes(
			semconv.ServiceNameKey.String("demo_service"), // 服务名
		)),
	)
	otel.SetTracerProvider(tp)
	return tp
}

func main() {
	tp := initTracer()
	defer func() {
		if cerr := tp.Shutdown(context.Background()); cerr != nil {
			log.Fatalf("Error shutting down tracer provider: %v", cerr)
		}
	}()
	
	//启动http服务器
	http.HandleFunc("/demo", handleRequest)
	
	go func() {
		if err := http.ListenAndServe(":8080", nil); err != nil {
			log.Fatalf("Error starting Service A server: %v", err)
		}
	}()
	
	//模拟请求
	SimulateRequest()
}

func handleRequest(w http.ResponseWriter, req *http.Request) {
	tracer := otel.Tracer("root")
	//开始创建root span
	ctx, span := tracer.Start(req.Context(), "span root")
	defer span.End()
	
	//可以在span上记录一些信息,例如日志、请求参数、sql语句等
	span.SetAttributes(
		attribute.String("some root service info", "This is the root service"),
	)
	
	//访问服务A
	svc.CallServiceA(ctx)
	
	//访问服务B
	svc.CallServiceB(ctx)
	
	w.WriteHeader(http.StatusOK)
	fmt.Fprintf(w, "Response from Service Root")
}

func SimulateRequest()  {
	req, err := http.NewRequest("GET", "http://localhost:8080/demo", nil)
	if err != nil {
		log.Fatalf("Creating request fail: %v", err)
	}
	
	resp, err := http.DefaultClient.Do(req)
	if err != nil {
		log.Fatalf("Request failed: %v", err)
	}
	defer resp.Body.Close()
	fmt.Println("Response received from Root Service")
}

运行后打开http://localhost:16686,选择对应的service查找trace可以看到


五、总结

  1. 链路追踪是依靠于一个随机生成的trace_id,一条链路对应唯一一个trace_id。
  2. Span 是描述单个操作或事件的基本单元。一个请求被分解成一个或多个 Span。即一条链路是由多个span组成的。
  3. 在链路追踪中,context(上下文)是指跨越不同服务的信息传递。每个 Span 都关联一个上下文。
  4. OpenTelemetry 是一个用于跟踪和监控分布式系统的开放式标准和工具集。提供了一套标准的API 和工具,用于生成、导出和聚合跟踪数据,并将这些数据发送到各种后端。
  5. Jaeger、Zipkin、Prometheus等这些可以接收OpenTelemetry发送过来的数据,可以提供可视化的展示和分析数据的能力。
相关推荐
YongCheng_Liang31 分钟前
从零开始学 Python:自动化 / 运维开发实战(核心库 + 3 大实战场景)
python·自动化·运维开发
mtngt111 小时前
AI DDD重构实践
go
黯然~销魂5 小时前
宿主机为虚拟机新建子网络,并允许虚拟机内部相互通信
运维开发
Grassto2 天前
12 go.sum 是如何保证依赖安全的?校验机制源码解析
安全·golang·go·哈希算法·go module
UpYoung!2 天前
【SQL Server 2019】企业级数据库系统—数据库SQL Server 2019保姆级详细图文下载安装完全指南
运维·数据库·sqlserver·运维开发·数据库管理·开发工具·sqlserver2019
Grassto3 天前
11 Go Module 缓存机制详解
开发语言·缓存·golang·go·go module
程序设计实验室4 天前
2025年的最后一天,分享我使用go语言开发的电子书转换工具网站
go
我的golang之路果然有问题4 天前
使用 Hugo + GitHub Pages + PaperMod 主题 + Obsidian 搭建开发博客
golang·go·github·博客·个人开发·个人博客·hugo
啊汉6 天前
古文观芷App搜索方案深度解析:打造极致性能的古文搜索引擎
go·软件随想
asaotomo7 天前
一款 AI 驱动的新一代安全运维代理 —— DeepSentry(深哨)
运维·人工智能·安全·ai·go