使用 Telegraf 进行综合监控

Telegraf 可以使用特定于应用程序的插件（例如 NGINX 或 MySQL 的插件）收集许多白盒指标，并且您可以使用 InfluxDB 客户端库来检测您的应用程序，但我们也可以使用 Telegraf 作为综合监控工具来监控我们的状态来自外部的系统。

HTTP 响应输入插件

Telegraf 的 http_response 输入插件通过使用自定义请求轮询端点然后记录有关结果的信息来检查 HTTP 和 HTTPS 连接的状态。该插件的配置允许您指定要查询的 URL 列表、定义请求方法以及发送自定义请求正文或标头以模拟外部用户和系统可能采取的操作。它还允许您通过使用正则表达式验证对这些请求的响应是否与某些预定义字符串匹配来验证这些端点的行为。这些选项为我们监控应用程序的方式提供了很大的灵活性。

对于每个被轮询的目标服务器，插件将向 InfluxDB 发送一个测量结果，其中包含服务器标签（目标 URL）、请求方法、状态代码和结果，以及包含响应时间数据、响应字符串是否匹配的字段、HTTP 响应代码以及结果的数字表示（称为结果代码）。

我们可以在 Telegraf 配置中为我们想要监控的每个端点创建一个新块。Telegraf 将在每个收集间隔收集每个配置块的数据一次。

监控 Influxdata.com

让我们看一个简单的例子：我们将创建一个简单的综合监控检查，它将告诉我们 influxdata.com 是否启动。因为我们希望这些监控检查来自系统外部，所以我们需要设置某种独立的基础设施，与系统的其余部分分开，用于运行 Telegraf。这可能意味着在 AWS 上的不同可用区中运行或完全使用不同的云提供商。由于本示例实际上不需要长期存在的基础设施，因此我将配置 Telegraf 在我的 Mac 上运行，该 Mac 位于 influxdata.com 基础设施的外部。

我已经使用 Homebrew 安装了 Telegraf，因此下一步将使用我们的 http_response 设置创建一个新的配置文件。下面是该块的一个片段 inputs.http_response ：这会查询 InfluxData 主页并查找匹配短语"InfluxDB is the open-source $...$ "。

需要注意的一件事是，Telegraf 的收集间隔对于该插件尤其重要，因为它决定了向相关端点发出请求的频率。各个插件可以通过在适当的配置块中包含参数来定义自己的收集间隔。interval为了举例，我们将使用 Telegraf 默认值，但您需要确定适合您自己的系统的间隔。

然后我们可以使用新配置启动 Telegraf 的副本，并且应该看到一些输出，如下所示：

下一步

该 http_reponse 插件在创建监控请求方面提供了很大的灵活性，您可以使用这些请求来更准确地建模用户和应用程序如何与您的站点交互。例如，您可能希望通过提交 POST 请求并验证响应是否包含搜索结果页面中的文本来验证搜索页面是否正常工作，而不仅仅是检查页面是否加载。

由于综合监控目的是对用户体验进行建模，因此检查的具体数量、频率和实施将取决于产品的设计和功能，但总的来说，您正在寻找诸如响应时间慢或速率高之类的东西错误------影响用户幸福感的事情。

由于黑盒监控通常会暴露已经影响用户的问题，因此您还需要基于此数据创建合理的警报策略。这可能意味着寻呼工程师或在 Slack 中删除通知，此时他们将不得不转向更适合调试的数据：白盒指标和事件。

黑盒监控并不能替代从应用程序捕获的数据，但它提供了端到端的覆盖范围，这在最灾难性的场景中非常有用。当与白盒工具结合使用时，它可以让您对软件的功能更有信心，使其成为监控系统的关键组件。