告警自愈(商业版)

本文从原理和数据流的角度,介绍夜莺监控的告警引擎的相关知识,帮助用户理解告警流程,排查告警问题。

概述

告警自愈处理器(Event recover)是一种告警自愈的手段。在告警发生后,它通过执行配置脚本,可用于获取更多告警相关信息或执行自愈任务。

使用场景

场景一:服务响应慢告警查询主机负载

如果产生服务响应时间慢相关告警,可以在脚本中获取机器负载相关数据。

场景二:主机磁盘使用率告警,使用脚本进行查询或处理

如果产生磁盘使用率告警,在某些运维场景下,例如,某些服务日志是明确需要定时清理的,可以在脚本中查询相关目录日志大小,并自动进行日志清理。

配置说明

1. 配置 Event Recover 事件处理器

配置界面截图

这里输入自愈模板,执行机器,和参数。 执行机器如果为空,执行的时候会使用告警中的 ident 标签指定的机器。如果开启保存执行结果,结果将会被保存到告警消息中。目前的机制会同步等待结果执行完成后,再发送告警消息。如果超过执行等待时间后,自愈任务还会执行完成,则不会继续等待,直接发送告警消息。

2. 配置自愈模板

配置界面截图 如果未配置自愈模板,可以在告警自愈菜单中,配置自愈模板。

3. 执行结果

自愈任务执行完成后,可在告警详情页面中查看自愈任务执行结果。 配置界面截图

注意事项

在实践中,等待自愈任务完成的时间,不建议配置太长。告警在等待时间结束后才会发送,过长的等待时间会影响告警消息的实效性。

更新时间 2025-12-26

快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云