使用 Telegraf 进行综合监控

Telegraf 可以使用特定于应用程序的插件(例如 NGINX 或 MySQL 的插件)收集许多白盒指标,并且您可以使用 InfluxDB 客户端库来检测您的应用程序,但我们也可以使用 Telegraf 作为综合监控工具来监控我们的状态来自外部的系统。

HTTP 响应输入插件

Telegraf 的 http_response 输入插件通过使用自定义请求轮询端点然后记录有关结果的信息来检查 HTTP 和 HTTPS 连接的状态。该插件的配置允许您指定要查询的 URL 列表、定义请求方法以及发送自定义请求正文或标头以模拟外部用户和系统可能采取的操作。它还允许您通过使用正则表达式验证对这些请求的响应是否与某些预定义字符串匹配来验证这些端点的行为。这些选项为我们监控应用程序的方式提供了很大的灵活性。

对于每个被轮询的目标服务器,插件将向 InfluxDB 发送一个测量结果,其中包含服务器标签(目标 URL)、请求方法、状态代码和结果,以及包含响应时间数据、响应字符串是否匹配的字段、HTTP 响应代码以及结果的数字表示(称为结果代码)。

我们可以在 Telegraf 配置中为我们想要监控的每个端点创建一个新块。Telegraf 将在每个收集间隔收集每个配置块的数据一次。

监控 Influxdata.com

让我们看一个简单的例子:我们将创建一个简单的综合监控检查,它将告诉我们 influxdata.com 是否启动。因为我们希望这些监控检查来自系统外部,所以我们需要设置某种独立的基础设施,与系统的其余部分分开,用于运行 Telegraf。这可能意味着在 AWS 上的不同可用区中运行或完全使用不同的云提供商。由于本示例实际上不需要长期存在的基础设施,因此我将配置 Telegraf 在我的 Mac 上运行,该 Mac 位于 influxdata.com 基础设施的外部。

我已经使用 Homebrew 安装了 Telegraf,因此下一步将使用我们的 http_response 设置创建一个新的配置文件。下面是该块的一个片段 inputs.http_response :这会查询 InfluxData 主页并查找匹配短语"InfluxDB is the open-source [...]"。

需要注意的一件事是,Telegraf 的收集间隔对于该插件尤其重要,因为它决定了向相关端点发出请求的频率。各个插件可以通过 在适当的配置块中包含参数来定义自己的收集间隔。interval为了举例,我们将使用 Telegraf 默认值,但您需要确定适合您自己的系统的间隔。

然后我们可以使用新配置启动 Telegraf 的副本,并且应该看到一些输出,如下所示:

下一步

http_reponse 插件在创建监控请求方面提供了很大的灵活性,您可以使用这些请求来更准确地建模用户和应用程序如何与您的站点交互。例如,您可能希望通过提交 POST 请求并验证响应是否包含搜索结果页面中的文本来验证搜索页面是否正常工作,而不仅仅是检查页面是否加载。

由于综合监控目的是对用户体验进行建模,因此检查的具体数量、频率和实施将取决于产品的设计和功能,但总的来说,您正在寻找诸如响应时间慢或速率高之类的东西错误------影响用户幸福感的事情。

由于黑盒监控通常会暴露已经影响用户的问题,因此您还需要基于此数据创建合理的警报策略。这可能意味着寻呼工程师或在 Slack 中删除通知,此时他们将不得不转向更适合调试的数据:白盒指标和事件。

黑盒监控并不能替代从应用程序捕获的数据,但它提供了端到端的覆盖范围,这在最灾难性的场景中非常有用。当与白盒工具结合使用时,它可以让您对软件的功能更有信心,使其成为监控系统的关键组件。

相关推荐
AKAMAI12 小时前
基准测试:Akamai云上的NVIDIA RTX Pro 6000 Blackwell
人工智能·云计算·测试
大话性能1 天前
8个Python骚操作让代码效率翻倍
测试
0和1的舞者2 天前
《GUI 自动化详解(二):控件、鼠标键盘与菜单列表操作全指南》
开发语言·自动化测试·python·测试开发·自动化·测试
0和1的舞者4 天前
接口自动化(四):logging 日志配置 + Allure 测试报告从安装到使用
测试开发·自动化·接口·接口自动化·测试·知识
0和1的舞者5 天前
接口自动化测试详解(二):requests 请求封装与 Pytest 框架全实战
开发语言·自动化测试·python·测试开发·接口·测试
大千AI助手6 天前
Web 接口性能测试最佳实践:从“压一压”到“压明白”
python·api·性能测试·测试·性能·压测·大千ai助手
weixin_413063218 天前
测试 focus stacking
opencv·测试·focus stacking
_OP_CHEN9 天前
【测试理论与实践】(四)测试用例篇(上):从概念到万能思路,解锁测试设计核心密码
运维·测试开发·测试用例·bug·压力测试·测试·网络测试
请为小H留灯11 天前
Windows 系统启用 Telnet 客户端:图文详细教程
网络·windows·测试·telnet
Apifox11 天前
Apifox 12 月更新| AI 生成用例同步生成测试数据、接口文档完整性检测、设计 SSE 流式接口、从 Git 仓库导入数据
前端·后端·测试