HickWall 详解 - 技术栈

优质博文：IT-BLOG-CN

一、监控分类

【1】Tracing调用链：

【2】Logging日志：

【3】Metrics指标：在应用发布之后，会长时间存在的度量维度。某个接口的请求量、响应时间。

Metrics数据模型

二、Metirc 接入

【1】pom.xml中添加metric-client依赖

html 复制代码

<dependency>
    <groupId>com.ctrip.flight.intl.common</groupId>
    <artifactId>metric-client</artifactId>
    <version>4.0.5</version>
</dependency>

【2】执行命令mvn -DskipTests=true compile

【3】编辑MetricClientExampleApplication.java

java 复制代码

@SpringBootApplication
 public class MetricClientExampleApplication {
    SpringApplication.run(MetricClientExampleApplication.class, args);
}

@Bean
public CommandLineRunner commandLineRunner() {
    return args -> {
        TimeUnit time = TimeUnit.SECONDS;
        while (true) {
            Metric metric = Metric.create("hickwall_metric_client_example", "100016249", "SYS");
           ThreadLocalRandom random = ThreadLocalRandom.current();
           metric.withTag("caller", "Dante")
                 .withTag("bu", "SYS")
                 .recordOne("run_query", random.nextLong(100, 60000));
           metric.recordSize("run_times", random.nextLong(0, 100));
           metric.addGauge("run_changes", () -> random.nextLong(0, 100));
           time.sleep(120);
       }
    };
}

【4】Tomcat应用

yml 复制代码

hickwall.prefix=数据库名.+自定义名字（用于区分不同开发组组、不同项目）

推荐做法：数据库名.小组名.项目名

eg: hickwall.prefix=FLT.backendservice.offline.screenpopup

三、埋点

【1】普通记录： 下面用一个例子来演示recordOne和recordSize的用法。假如有一个航班查询接口，它根据传入的参数，返回匹配的所有航班。接口定义如下：

java 复制代码

public List<Flight> searchFlights(String dep, String arr, String date);

现在，我们关心这个接口的表现，具体为如下指标：

■ 这个接口每秒调用了多少次。

■ 这个接口每次调用花了多少时间。

■ 这个接口每次调用返回了多少条结果。

做法如下：

java 复制代码

public List<Flight> searchFlights(String dep, String arr, String date){
    // 记录请求开始的时间
    long startTime = System.currentTimeMillis();
     
    // 实际的搜索航班
    List<Flight> flights = doSearchFlights(dep, arr, date);
     
    // 当前时间减去开始时间，计算得到搜索航班实际执行的时间
    long timeUsed = System.currentTimeMillis() - startTime;
     
    // 埋点记录这个方法被调用了一次，以及这次调用使用的时间
    Metrics.recordOne("flight.search", timeUsed);
    // 埋点记录这次调用返回的航班的条数。
    Metrics.recordSize("flight.search", flights.size());
     
    return flights;
}

recordOne和recordSize的区别：

■ recordOne记录的值是qps。场景：引擎每秒成功多少次。

■ recordSize记录的值是平均值。场景：引擎每次返回的结果数量。

【2】下面演示addGauge的用法：假如系统内部有一个缓存，缓存的key的数量随着时间而改变。我们关心缓存的表现，指标如下：缓存的key随着时间是如何变化的。针对这种需求，recordOne和recordSize可能就不够用了，这时需要用addGauge。如下：

java 复制代码

@Service
public class Test {
 
    Map cache = new HashMap();
 
    @PostConstruct
    public void init() {
        Metrics.addGauge("cache", () -> cache.size());
    }
}

addGauge方法要求传入一个Supplier，这个Supplier应该返回一个整数值。Metrics会每分钟调用一次Supplier，并把它返回的整数值发送给hickwall。

如果在3.2中自己new了一个Metric，上面例子中的Metrics要替换成new出来的metric对象。

四、使用 Tag

相同的指标名，可以记录不同的tag。在hickwall展示的时候，可以根据tag来分别展示指标。

提示：自定义的Tag名称如果DB无法查询得到，目前是需要找Hickwall Support手动添加。
tag的使用如下：

java 复制代码

Metrics.withTag("clientAppId", "100000").recordOne("metricName");

五、超高频调用

如果调用的频率非常高（1000+qps），recordOne和recordSize的性能可能会不够用。这种情况下，需要使用forRecordOne和forRecordSize来提高性能。

沿用4.1中的例子，代码要修改如下（注意第1/2行和第15/17行）：

java 复制代码

private MetricOne COUNT_METRIC = Metrics.forRecordOne("flight.search");
private MetricSize SIZE_METRIC = Metrics.forRecordSize("flight.search");
 
public List<Flight> searchFlights(String dep, String arr, String date){
    // 记录请求开始的时间
    long startTime = System.currentTimeMillis();
 
    // 实际的搜索航班
    List<Flight> flights = doSearchFlights(dep, arr, date);
 
    // 当前时间减去开始时间，计算得到搜索航班实际执行的时间
    long timeUsed = System.currentTimeMillis() - startTime;
 
    // 埋点记录这个方法被调用了一次，以及这次调用使用的时间
    COUNT_METRIC.recordOne(timeUsed);
    // 埋点记录这次调用返回的航班的条数。
    SIZE_METRIC.recordSize(flights.size());
 
    return flights;
}

六、指标命名方式

前面第四节中，埋点使用的指标名并不是最终在hickwall中存储的指标名。

hickwall中存储的指标名规则如下：metricName=appPrefix.metricName.{count,time,size,value}

例如，假设appPrefix为intlengine.common

记录方式	最终名称
recordOne("query")	intlengine.common.query.count
recordOne("query", time)	intlengine.common.query.count
	intlengine.common.query.time
recordSize("queryResult")	intlengine.common.queryResult.size
addGauge("resource", ()-> resources.size())	intlengine.common.resources.value