使用 Datadog 和 Slack Alerts 监控 AWS EC2

监控是大多数 IT 专业人员的关键职责之一。如果您最近正在寻找新工作,您可能已经注意到"监控"一词几乎出现在许多组织发布的每份职位描述中。

您可以找到各种监控工具,它们提供一些卓越的功能来简化您的工程工作。然而,Datadog 是大多数组织愿意用来监控其应用程序和基础设施的热门监控工具之一。

因此,我决定指导您使用 Datadog 监控AWS EC2,并将重要警报转发到 Slack 频道。您需要一些其他工具来尝试此解决方案,但我将在下面列出执行此任务所需的所有工具。别担心!您可以使用它们的免费计划!

  • 本地或云虚拟机
  • Datadog
  • Slack
  • GitHub

本文不会向您展示如何分别设置每个工具,因为您可以找到许多文章来指导您完成此过程。我们专注于将所有这些工具集成在一起,以构建一个简单的监控解决方案。

在EC2 中安装 Datadog

首先,创建一个免费的 Datadog 帐户(选择"免费试用")。您可能需要按照几个步骤设置帐户。之后,您需要一台虚拟机。该虚拟机可以是本地虚拟机,也可以是云端虚拟机。

我有一个AWS EC2虚拟机。让我们在 EC2中安装 Datadog。

现在,我们需要从 Datadog 门户创建一个 API 密钥。您必须在以后的配置中使用此密钥。在 Datadog 仪表板上点击您的个人资料图片,然后在"组织设置"下选择"API 密钥"。

通过SSH工具连接到EC2主机,然后运行下面的命令:

复制代码
DD_API_KEY=f099de0d141c845688c4078aae87ee3 DD_SITE="ap1.datadoghq.com" bash -c "$(curl -L https://install.datadoghq.com/scripts/install_script_agent7.sh)"

要验证安装是否成功,请转到 Datadog 门户并搜索"host"。如果您正确遵循安装步骤,您将在 Datadog 的host视图中看到AWS EC2。

配置slack

安装免费版的slack,配置slack 工作区:zhengmao_devops

然后创建channel, datadog-alert,用来接收datadog 的告警。

配置datadog 告警规则

一个常见的系统监控指标是给定系统或主机上的可用磁盘空间。本指南将帮助您创建一个监控器,当任何向 Datadog 报告的主机的可用磁盘空间低于 40% 时,它会向您发出警报。

  1. 要创建可用磁盘空间监视器:
  2. 在导航菜单中,点击"监视器"。
  3. 点击"新建监视器"。
  4. 选择"指标"作为监视器类型。
  5. 在"定义指标"部分,使用"system.disk.free"作为指标,并选择"平均值"作为主机。这是查询 a。
  6. 点击"添加查询"。对于此指标,使用"system.disk.total"作为指标,并选择"平均值"作为主机。这是查询 b。
  7. 在出现的公式中,将"a + b"替换为"a/b*100"。

配置datadog 通知和slack 集成

输入前面创建的slack channel,然后输入subject

点击测试通知,然后在slack中可以看到这个告警:

Datadog 是一款实用的云监控平台,它提供统一的解决方案,无缝整合可观察性的三大支柱,并实现整个应用程序堆栈的全面可见性。除此之外,最重要的是其流畅无阻的集成流程,拥有超过 400 个内置集成和预定义的仪表板模板。Datadog 内部有多种产品,支持我们应用程序各层的不同用例,并为组织内的不同团队提供统一的管理平台。

关于缺点,所有这些功能都需要付费。Datadog 的定价约为每位用户每月 15 美元,企业版为 23 美元。Datadog 的定价政策公开,价格通常较低。它的月度定价选项包括按主机、按百万事件和按分析日志文件 GB 计算。

总而言之,这完全取决于您想要实现的用例.

结论

基础设施监控是现代应用程序获得整个堆栈全面可见性的必备属性。可观察性的三大支柱,即监控、警报和修复,通常需要相互关联才能获得最大效益。因此,选择一个具有统一视图、整合所有三大可观察性支柱的监控平台,可以随时应对不可预见的情况。

相关推荐
荣光波比6 小时前
Docker(三)—— Docker Compose 编排与 Harbor 私有仓库实战指南
运维·docker·容器·云计算
企鹅侠客13 小时前
mysqldump导入备份数据到阿里云RDS会报错吗
阿里云·adb·云计算
iHero13 小时前
【Jitsi Meet】阿里云Docker安装Jitsi Meet后的调整
阿里云·docker·云计算
荣光波比14 小时前
Ansible(三)—— 使用Ansible自动化部署LNMP环境实战指南
运维·自动化·云计算·ansible
荣光波比17 小时前
Docker(五)—— Docker Compose 一键搭建 LNMP 架构并部署 WordPress
运维·docker·容器·云计算
mjhcsp1 天前
深入解析 IDM 插件开发挑战赛:技术要点与实践指南
服务器·阿里云·云计算
荣光波比2 天前
MySQL数据库(八)—— MySQL全量+增量备份方案:从脚本开发到连锁餐饮场景落地
运维·数据库·mysql·云计算
数据与人工智能律师2 天前
数字人民币钱包抉择:匿名自由与实名安全的法律风险评估
大数据·人工智能·python·云计算·区块链
Pan Zonghui3 天前
腾讯云COS通过CDN加速配置指南
网络·云计算·腾讯云
Elastic 中国社区官方博客3 天前
AutoOps:简单的 Elasticsearch 集群监控与管理现已支持本地部署
大数据·人工智能·elasticsearch·搜索引擎·云计算·全文检索