Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI Agent

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Buyer Guide

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

告警的一体两面：漏报和误报

快猫运营团队 · 2025-03-18

告警配置最重要的原则，是优先覆盖用户体验和核心业务结果，再把关键原因类指标沉淀为排障事件。本文解释结果类指标、原因类指标、数据源选择和告警通知边界。

Flashduty 日志监控如何获取日志原文

快猫运营团队 · 2025-03-17

Flashduty 日志监控可以通过关联查询把匹配日志的 request_id、remote_addr 等原文字段带入告警事件。本文以 Elasticsearch SQL 为例，说明告警查询、关联查询和备注模板的配置方式。

Flashduty 告警规则 - 多个 PromQL 查询的功能说明

Product Team @快猫星云 · 2025-03-13

Flashduty 告警规则支持多个 PromQL 查询。本文说明多指标联合运算和多指标并行告警的区别，并解释何时使用阈值计算、何时改用数据存在模式或拆分规则。

夜莺监控 v8.0 新版通知规则实操 | 对接钉钉、飞书、企微通知

Product Team @快猫星云 · 2025-03-12

手把手演示夜莺 v8 新版通知规则对接钉钉、飞书和企业微信的配置流程，覆盖机器人创建、通知规则、消息模板、domain 设置、钉钉 at 人和通知测试。

夜莺监控 v8.0 新版通知规则 | 对接钉钉告警，如何配置 at 人

Product Team @快猫星云 · 2025-03-11

说明夜莺 v8 新版通知规则中钉钉告警如何配置 at 人，重点解释 text 与 markdown 消息的差异、Phone 联系方式、$sendtos、batchContactsAts 和 batchContactsJsonMarshal 的用法。

夜莺监控 v8.0 新版通知规则 | 对接飞书告警

Product Team @快猫星云 · 2025-03-10

介绍夜莺监控 v8 新版通知规则如何对接飞书告警，覆盖普通 text 消息、飞书卡片、FeishuCard 模板 domain 配置、告警详情字段和模板优化示例。

夜莺监控 v8 告警规则很好用，是不是就不需要 Flashduty 了？

Product Team @快猫星云 · 2025-03-10

夜莺 v8 从 beta7 版本开始，抽象了通知规则的概念，可以非常方便的配置各种通知媒介，比如钉钉、短信、电话等。而且还有非常通用的 HTTP、脚本通知方式，那么是不是就不需要 Flashduty 了呢？

夜莺监控 v8.0 新版通知规则 | 对接企微告警

Product Team @快猫星云 · 2025-03-07

介绍夜莺监控 v8 新版通知规则如何对接企业微信机器人，包括告警规则关联、通知规则配置、Wecom 通知媒介、消息模板 domain 设置和最终验证效果。

夜莺监控 v8.0 新版通知规则 | 对接钉钉告警

Product Team @快猫星云 · 2025-03-07

介绍夜莺监控 v8 新版通知规则如何对接钉钉机器人，包括告警规则关联、通知规则配置、Dingtalk 通知媒介、消息模板 domain 和请求体设置。

夜莺监控巨大革新：抽象出通知规则，增强告警通知的灵活性

快猫运营团队 · 2025-03-04

夜莺监控 v8.0.0-beta7 抽象出通知规则，将告警规则与通知方式解耦，支持自定义 HTTP、脚本发送、不同媒介模板和用户 Profile 参数。

夜莺日志监控如何获取日志原文

快猫运营团队 · 2025-03-03

本文解释夜莺开源版日志监控为什么默认只能基于 Elasticsearch 或 Loki 查询结果做数值告警，不能直接把日志原文放进告警事件，并给出附加查询、Flashduty 和自定义脚本 enrichment 三种实现思路。

告别运维焦虑！Flashduty - 重新定义智能告警与值班管理的行业标杆

快猫运营团队 · 2025-03-03

Flashduty 面向告警 OnCall 场景，解决告警事件分散、告警风暴、漏处理、认领升级和移动协同等问题。本文说明统一集成、Pipeline 处理、故障协同、排班和统计分析如何组成完整响应链路。

Prometheus 的几个常见问题和错误用法

巴辉特 · 2025-02-26

总结 Prometheus 使用中的常见问题和错误用法，包括 step 设置不合理、Grafana rate 时间范围写死、高基数标签、重复上报数据、without 和 by 聚合选择等。

手把手教你用夜莺监控机器

巴辉特 · 2025-02-25

使用 Categraf、Prometheus 和夜莺搭建主机监控的完整教程，覆盖数据采集、remote write 转发、仪表盘导入、告警规则导入和钉钉通知配置。

告警 OnCall 错误实践，看看你中了几条

快猫运营团队 · 2025-02-24

告警 OnCall 实践的核心在于快速响应、高效协作和持续改进。通过避免上述错误实践，团队可以显著提升故障处理效率，降低系统风险，同时减轻 OnCall 人员的压力。

夜莺监控 - 边缘告警引擎架构详解

巴辉特 · 2025-02-21

详解夜莺监控 n9e-edge 边缘告警引擎架构，说明中心 n9e、边缘机房数据源、告警引擎集群、Redis、Categraf 和 Ibex 的部署关系，以及跨机房链路不稳定时如何保障告警判定可靠性。

Prometheus 历史峰值看不到了，这监控不准啊

快猫技术团队 · 2025-02-20

Prometheus 历史峰值看不到，常见原因不是监控不准，而是 query_range 查询时 step 变大后只返回较稀疏的数据点。本文解释 step 的含义、Nightingale 如何自动计算 step，以及如何用原始数据判断实际采集频率。

Linux 下查看硬盘 IO 的 5 个工具

翻译 · 2025-02-19

面向 Linux 性能排障，系统介绍 iostat、iotop、vmstat、dstat、sar 五个工具，讲清磁盘 IO 的关键指标、典型症状、工具差异和排查思路。

17 个您需要监控的 Linux 日志文件

快猫运营团队 · 2025-02-18

梳理 17 个值得纳入监控的 Linux 日志文件，覆盖系统、认证、内核、启动、计划任务、邮件、Web、数据库、防火墙、审计和登录记录，并给出常见查看命令与告警关键词建议。

是时候解决告警事件数据孤岛问题了

快猫运营团队 · 2025-02-17

告警事件数据孤岛会让通知配置、事件收敛、排班升级、故障定位和协同响应变得分散低效。本文从问题后果、统一事件模型、Webhook 接入、上下文丰富和 OnCall 协同角度，说明为什么需要统一告警/事件平台。