夜莺监控 v8.0 新版通知规则 | 对接飞书告警
Product Team @快猫星云
2025-03-10 17:30:53
- 新版通知规则的介绍文章:夜莺监控巨大革新:抽象出通知规则,增强告警通知的灵活性
- 新版通知规则对接钉钉:夜莺监控 v8.0 新版通知规则 | 对接钉钉告警
- 新版通知规则对接企微:夜莺监控 v8.0 新版通知规则 | 对接企微告警
本文对背景信息不做额外描述了,大家一定要先看看上面的文章,原理类似。本文直接讲解夜莺监控的通知规则如何对接飞书告警。
开源夜莺和飞书的对接支持 text 和飞书卡片两种方式,不支持飞书应用。FlashDuty 和飞书应用的对接非常丝滑,感兴趣的小伙伴可以试试 FlashDuty。
通知规则
通知规则中,可以同时对接多个媒介,上例中我同时对接了普通飞书 text 消息和卡片消息,复用了一个相同的机器人 Token。理论上这样一来,每次发告警的时候会同时发两条消息,一个是 text 格式,另一个是卡片格式。
消息模板
找到 feishu 和 feishucard 两个消息模板,修改其中的 domain 变量:
{{$domain := "http://10.211.55.3:17000" }}
把 domain 变量改成你自己的夜莺的访问地址即可。这是为了在告警通知中,可以点击「事件详情、屏蔽 1 小时、查询曲线」等按钮。
最后的效果
通知媒介不用动,保持默认即可工作。最终效果如下:
上面有4条消息,先是发了两个告警消息,后面又有两个恢复消息。对于飞书卡片类型,告警消息和恢复消息的卡片颜色有区别,更容易区分。
v8.0.0-beta7 这个版本还不是特别完善,我测试发现两个问题:
- text 类型的消息中,屏蔽一小时那个按钮,没有把事件的相关字段带到屏蔽规则中,应该是
&
符号的转义问题,后面的版本完善一下。 - 卡片消息模板中缺少
{{$event.TagsJSON}}
,这个是告警事件的标签信息,自行添加即可。我这里也测试了一下添加之后的效果,把 feishucard 模板改成如下内容。
{{ if $event.IsRecovered }}
{{- if ne $event.Cate "host"}}
**告警集群:** {{$event.Cluster}}{{end}}
**级别状态:** S{{$event.Severity}} Recovered
**告警名称:** {{$event.RuleName}}
**告警详情:** {{$event.TagsJSON}}
**恢复时间:** {{timeformat $event.LastEvalTime}}
**告警描述:** **服务已恢复**
{{- else }}
{{- if ne $event.Cate "host"}}
**告警集群:** {{$event.Cluster}}{{end}}
**级别状态:** S{{$event.Severity}} Triggered
**告警名称:** {{$event.RuleName}}
**告警详情:** {{$event.TagsJSON}}
**触发时间:** {{timeformat $event.TriggerTime}}
**发送时间:** {{timestamp}}
**触发时值:** {{$event.TriggerValue}}
{{if $event.RuleNote }}**告警描述:** **{{$event.RuleNote}}**{{end}}
{{- end -}}
{{$domain := "http://10.211.55.3:17000" }}
[事件详情]({{$domain}}/alert-his-events/{{$event.Id}})|[屏蔽1小时]({{$domain}}/alert-mutes/add?busiGroup={{$event.GroupId}}&cate={{$event.Cate}}&datasource_ids={{$event.DatasourceId}}&prod={{$event.RuleProd}}{{range $key, $value := $event.TagsMap}}&tags={{$key}}%3D{{$value}}{{end}})|[查看曲线]({{$domain}}/metric/explorer?data_source_id={{$event.DatasourceId}}&data_source_name=prometheus&mode=graph&prom_ql={{$event.PromQl|escape}})
上面就是添加了 **告警详情:** {{$event.TagsJSON}}
部分,最终生成的告警事件如下:
这里可以看到告警名称和告警详情字段中的 rulename 重复了,如果你不想重复展示,也可以继续优化这个模板,把 **告警详情:** {{$event.TagsJSON}}
改成如下内容:
**告警详情:** [{{range $key, $value := $event.TagsMap}}{{if ne $key "rulename"}}{{$key}}={{$value}} {{end}}{{end}}]
最终,feishucard 的消息模板变成:
{{ if $event.IsRecovered }}
{{- if ne $event.Cate "host"}}
**告警集群:** {{$event.Cluster}}{{end}}
**级别状态:** S{{$event.Severity}} Recovered
**告警名称:** {{$event.RuleName}}
**告警详情:** [{{range $key, $value := $event.TagsMap}}{{if ne $key "rulename"}}{{$key}}={{$value}} {{end}}{{end}}]
**恢复时间:** {{timeformat $event.LastEvalTime}}
**告警描述:** **服务已恢复**
{{- else }}
{{- if ne $event.Cate "host"}}
**告警集群:** {{$event.Cluster}}{{end}}
**级别状态:** S{{$event.Severity}} Triggered
**告警名称:** {{$event.RuleName}}
**告警详情:** [{{range $key, $value := $event.TagsMap}}{{if ne $key "rulename"}}{{$key}}={{$value}} {{end}}{{end}}]
**触发时间:** {{timeformat $event.TriggerTime}}
**发送时间:** {{timestamp}}
**触发时值:** {{$event.TriggerValue}}
{{if $event.RuleNote }}**告警描述:** **{{$event.RuleNote}}**{{end}}
{{- end -}}
{{$domain := "http://10.211.55.3:17000" }}
[事件详情]({{$domain}}/alert-his-events/{{$event.Id}})|[屏蔽1小时]({{$domain}}/alert-mutes/add?busiGroup={{$event.GroupId}}&cate={{$event.Cate}}&datasource_ids={{$event.DatasourceId}}&prod={{$event.RuleProd}}{{range $key, $value := $event.TagsMap}}&tags={{$key}}%3D{{$value}}{{end}})|[查看曲线]({{$domain}}/metric/explorer?data_source_id={{$event.DatasourceId}}&data_source_name=prometheus&mode=graph&prom_ql={{$event.PromQl|escape}})
哦了,优先使用飞书卡片方式来对接飞书告警吧,样式好看,也没有那个 &
符号的转义问题。