Zabbix 配置钉钉告警
随着企业IT运维需求的不断增加,及时、准确地获取系统告警信息显得尤为重要。在众多告警工具中,Zabbix 因其强大的监控功能和灵活的告警机制,成为了很多企业的首选。同时,随着企业内部沟通工具的多样化,利用钉钉(DingTalk)这种即时通讯工具来接收告警信息,已经成为一种高效的解决方案。
本文旨在介绍如何在 Zabbix 中配置钉钉告警。通过该配置,您可以在监控系统出现问题时,第一时间通过钉钉收到告警通知,从而快速采取相应措施,减少因故障带来的损失。
zabbix环境信息
节点 | IP | OS |
---|---|---|
zabbix-server | 192.168.72.31 | Ubuntu 22.04 |
zabbix-agent01 | 192.168.72.32 | Ubuntu 22.04 |
zabbix 版本: v7.0.0
创建钉钉组织
创建钉钉群组要求加入一定数量的成员,在测试环境使用已有钉钉群组不太方便,这里新建一个空的组织来测试钉钉告警。
点击钉钉左上角,选择组织/团队,选择创建或加入企业/团队。
选择:没有使用立即创建
补充企业信息
点击完成
切换到新组织,进入全员群聊,在群设置中找到机器人
选择添加机器人
选择自定义webhook
填写机器人名字,配置群组和安全设置
记录webhook地址
示例地址如下:
bash
https://oapi.dingtalk.com/robot/send?access_token=abd34fc5bf9aa952cd06c4e99b8f9c0f5f95aa70884b46dd2ade66f85d061602
配置zabbix server
连接到zabbix sever节点,创建钉钉告警脚本,只需替换webhook
地址参数即可。
python
root@zabbix-server:~# vim /usr/lib/zabbix/alertscripts/dingding.py
#!/usr/bin/env python3
#coding:utf-8
#zabbix钉钉报警
import requests,json,sys,os,datetime
webhook="https://oapi.dingtalk.com/robot/send?access_token=abd34fc5bf9aa952cd06c4e99b8f9c0f5f95aa70884b46dd2ade66f85d061602"
user=sys.argv[1]
text=sys.argv[3]
data={
"msgtype": "text",
"text": {
"content": text
},
"at": {
"atMobiles": [
user
],
"isAtAll": False
}
}
headers = {'Content-Type': 'application/json'}
x=requests.post(url=webhook,data=json.dumps(data),headers=headers)
if os.path.exists("/var/log/zabbix/dingding.log"):
f=open("/var/log/zabbix/dingding.log","a+")
else:
f=open("/var/log/zabbix/dingding.log","w+")
f.write("\n"+"--"*30)
if x.json()["errcode"] == 0:
f.write("\n"+str(datetime.datetime.now())+" "+str(user)+" "+"发送成功"+"\n"+str(text))
f.close()
else:
f.write("\n"+str(datetime.datetime.now()) + " " + str(user) + " " + "发送失败" + "\n" + str(text))
f.close()
赋予脚本执行权限
bash
chmod +x /usr/lib/zabbix/alertscripts/dingding.py
创建日志文件:
bash
touch /var/log/zabbix/dingding.log
chown zabbix.zabbix /var/log/zabbix/dingding.log
安装python 请求模块
bash
apt update -y
apt install -y python3-pip
pip3 install requests
报警测试,要写三个参数并且带关键字"告警"
bash
root@zabbix-server:~# cd /usr/lib/zabbix/alertscripts/
root@zabbix-server:/usr/lib/zabbix/alertscripts# ./dingding.py this is "告警测试,请注意"
root@zabbix-server:/usr/lib/zabbix/alertscripts#
查看收到的告警信息
配置zabbix web
创建媒介
配置脚本参数如下:
bash
{ALERT.SENDTO}
{ALERT.SUBJECT}
{ALERT.MESSAGE}
添加动作
创建动作
触发条件配置如下
配置操作
自定义消息内容如下:
bash
Problem: {EVENT.NAME}
-=【告警】=-
告警组:{TRIGGER.HOSTGROUP.NAME}
告警主机:{HOSTNAME1}
告警主机别名:{HOST.NAME}
主机IP:{HOST.IP}
主机描述:{HOST.DESCRIPTION}
告警时间:{EVENT.DATE} {EVENT.TIME}
告警等级:{TRIGGER.SEVERITY}
警报类别:{TRIGGER.NAME}
当前状态:{ITEM.LASTVALUE}
告警平台:http://192.168.72.31/zabbix
说明:告警平台地址为zabbix-server地址。
配置恢复操作
自定义消息内容如下:
bash
Resolved:{EVENT.NAME}
-=【告警取消啦】=-
恢复主机:{HOSTNAME1}
恢复时间:{EVENT.DATE} {EVENT.TIME}
主机IP:{HOST.IP}
告警项目:{TRIGGER.KEY1}
问题详情:{ITEM.NAME}:{ITEM.VALUE}
当前状态:{TRIGGER.STATUS}:{ITEM.VALUE1}
事件ID:{EVENT.ID}
动作操作配置完成后如下所示
为用户配置告警媒介,选择用户,admin,切换到告警媒介
测试报警效果
在zabbix-agent01节点安装stress-ng工具,使用stress-ng进行压测,触发告警负载过高事件
bash
apt install -y stress-ng
stress-ng --cpu 8 --vm 8
等待5分钟,在zabbix-server控制台查看产生的告警事件,并且状态显示已送达。
或者查看动作日志信息
在钉钉上查看收到的告警信息及告警恢复信息
解散钉钉企业
如果需要解散钉钉企业,选择更多,管理后台
在企业设置中,解散企业即可
参考:
https://developer.aliyun.com/article/1388509#slide-15
https://blog.csdn.net/2302_78534730/article/details/132709825