开源版
夜莺V6
项目介绍
架构介绍
快速开始
黄埔营
安装部署
升级
采集器
使用手册
API
数据库表结构
alert_aggr_view
alert_cur_event
alert_his_event
alert_mute
alert_rule
alert_subscribe
alerting_engines
board
board_payload
builtin_cate
busi_group
busi_group_member
chart_share
configs
datasource
metric_view
notify_tpl
recording_rule
role
role_operation
sso_config
target
task_record
task_tpl
task_tpl_host
user_group
user_group_member
users
FAQ
夜莺V5
企业版
智能告警
夜莺开源生态
Telegraf
Prometheus
版权声明
第1章:天降奇兵
第2章:探索PromQL
开篇
理解时间序列
Metrics类型
初识PromQL
PromQL操作符
PromQL聚合操作
PromQL内置函数
在HTTP API中使用PromQL
最佳实践:4个黄金指标和USE方法
小结
第3章:Prometheus告警处理
开篇
Prometheus告警简介
自定义Prometheus告警规则
部署Alertmanager
Alertmanager配置概述
基于标签的告警处理路由
使用Receiver接收告警信息
告警模板详解
屏蔽告警通知
使用Recoding Rules优化性能
小结
第4章:Exporter详解
第5章:数据与可视化
第6章:集群与高可用
第7章:Prometheus服务发现
第8章:监控Kubernetes
开篇
初识Kubernetes
在Kubernetes下部署Prometheus
Kubernetes下的服务发现
使用Prometheus监控Kubernetes集群
基于Prometheus的弹性伸缩
小结
第9章:Prometheus Operator
参考资料
事件墙系统最佳实践
最佳实践
据统计70%左右的事故都是由变更引起的,因此,故障定位过程中高优查看相关变更事件,是有效的故障定位手段之一。
Flashcat的事件墙即为汇聚故障定位所需的关键事件设计。基于事件墙的故障定位最佳实践举例如下:
- 北极星报警发现故障后,观察灭火图状态,确定异常的模块。
- 在模块的卡片点击调出模块的关联信息(配置方式见灭火图系统)。或直接进入事件墙系统,筛选该业务及相关模块的事件集合。
- 如有变更事件的时间和北极星报警时间match或相近,立即通知相关人员回滚变更。
- 观察相关业务和相关模块的报警事件,查看是否有严重的报警发生,如实例资源耗尽、服务器宕机等,针对性的采取止损操作。