用 ERROR 日志做告警:低成本高 ROI 的兜底监控实践
很多团队只做 CPU/内存等机器指标或 SLI 告警,却忽略了 ERROR 日志数量告警。本文说明为什么它 ROI 极高,并给出基于日志中心化收集、ETL 与 Loki/ElasticSearch/VictoriaLogs 的告警规则思路,帮助你用日志告警为指标告警兜底、驱动日志级别治理。
汇总 Flashcat 博客中与 日志告警 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
很多团队只做 CPU/内存等机器指标或 SLI 告警,却忽略了 ERROR 日志数量告警。本文说明为什么它 ROI 极高,并给出基于日志中心化收集、ETL 与 Loki/ElasticSearch/VictoriaLogs 的告警规则思路,帮助你用日志告警为指标告警兜底、驱动日志级别治理。
ElasticSearch 支持多种查询语法,DSL、SQL、EQL 等,其中 DSL 中的 query_string 极为灵活,可以看做一种小型查询语法,本文介绍一下 query_string 的几个简单样例,帮助你快速入门
夜莺监控从 v8.beta3 开始,支持了 ElasticSearch 的告警,这是社区一直心心念念的功能。日志告警是重要监控手段,对服务稳定性很是关键,欢迎大家体验起来。
如果你在意生产环境的稳定性,希望自己的服务出问题时及时发现,大概率就有日志监控告警的需求,比如发现日志中有 Error 或 Exception 关键字就告警,比如通过日志统计某个服务的 95 分位延迟数据,延迟过高就告警,比如通过日志统计某个服务的 status code,出现多个 5xx 就告警,等等。日志可能存储在 ElasticSearch、Loki、ClickHouse 等系统中,告警系统的核心逻辑也比较清晰,就是根据用户配置的查询语句,周期性查询这些存储,并对查询结果做阈值判定,如果达到阈值就触发告警。比如统计 5 分钟内出现的 Error 数量,如果大于 10 就告警。
介绍 Flashcat 统一观测平台的告警体系,涵盖 PromQL 阈值告警、机器失联告警、日志告警、智能告警、静默屏蔽与订阅分组等能力。
基于夜莺快速构建日志告警平台,实现ElasticSearch日志告警,可以看做是Elastalert升级版。