gRPC -- Guides -- Request Hedging

请求对冲机制

说明什么是请求对冲以及如何进行配置

对冲是 gRPC 支持的两种可配置重试策略之一。启用对冲后，gRPC 客户端会向不同后端发送多份相同请求 ，并使用最先收到的响应。客户端随后会取消所有未完成的请求，并将响应传递给应用层。

对冲是一种用于降低大规模分布式系统长尾延迟 的技术。虽然简单实现可能会大幅增加后端服务器负载，但可以在仅小幅增加负载的前提下，获得大部分延迟降低效果。

关于长尾延迟的深入讨论，可参考 Jeff Dean 与 Luiz André Barroso 的经典文章《The Tail At Scale》。

对冲可通过 gRPC 服务配置 按方法粒度进行配置，配置包含以下参数：

复制代码

"hedgingPolicy": {
  "maxAttempts": 整数,
  "hedgingDelay": JSON proto3 Duration 类型,
  "nonFatalStatusCodes": gRPC 状态码数组（整数或字符串）
}

maxAttempts ：等待成功响应时，最大并发请求数。必填项，必须指定；若大于 5，gRPC 会按 5 处理。
hedgingDelay ：等待成功响应期间，客户端发送下一个请求前的等待时间。可选项，未指定则所有 maxAttempts 个请求会同时发送。
nonFatalStatusCodes ：可选项，gRPC 状态码列表。若某个对冲请求失败的状态码不在此列表中，客户端会取消所有未完成请求并将响应返回应用。

当应用发起包含 hedgingPolicy 配置的 RPC 调用时：

收到成功响应时：

收到非致命状态码错误时：

收到其他状态码时：

若所有对冲请求均失败：

若收到服务端回退（禁止重试）：

gRPC 提供对冲 RPC 限流机制，防止服务端过载。限流同样通过服务配置的 RetryThrottlingPolicy 配置：

复制代码

"retryThrottling": {
  "maxTokens": 10,
  "tokenRatio": 0.1
}

对冲限流规则：

仅非致命状态码 或服务端回退禁止重试的失败，会计入限流统计，避免将非法参数等客户端错误与服务端故障混淆。

服务端可通过在响应元数据中显式设置回退指令：

服务端回退使用元数据键：grpc-retry-pushback-ms