Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI Agent

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Buyer Guide

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

专栏：数据库、中间件的监控一网打尽

秦晓辉 · 2024-01-04

《手把手构建生产级监控系统》第二篇，使用 Cprobe 快速接入 MySQL、Redis、MongoDB、Oracle、Postgres、Tomcat、Kafka 和 ElasticSearch 监控，并配置仪表盘与告警规则。

专栏：手把手构建生产级监控系统

秦晓辉 · 2024-01-01

《手把手构建生产级监控系统》第一篇，从 VictoriaMetrics、Cprobe、Node-Exporter、Grafana 到 Flashduty，演示如何搭建指标采集、存储、展示、告警判定和事件分发底座。

夜莺监控发布 v6.7 版本，推送部分商业版功能

夜莺 · 2023-12-28

夜莺监控 v6.7 将机器 Metadata 管理能力开放到开源版，机器列表可直接查看 Kernel、CPU、IP、Mac 地址等由 Categraf 自动采集的主机信息。

最佳实践：灭火图 - 故障发现和定位的入口

快猫技术 · 2023-12-27

Flashcat 灭火图是故障发现和定位的入口，通过服务、模块、组件、基础设施等层级化健康视图，聚合时延、流量、错误、饱和度等指标，并串联指标、日志、链路、事件等下钻分析能力。

Google SRE 的 on-call 方法和工具

Flashcat · 2023-12-26

从 Google SRE 的 OnCall 方法、减少琐事原则和 Outalator 工具出发，分析国内团队落地 OnCall 时需要补齐的文化、机制、工具、指标和产品能力。

快速监控 Oracle 数据库

秦晓辉@快猫星云 · 2023-12-25

使用 Cprobe 快速采集 Oracle 数据库监控指标：准备 Oracle 连接账号和权限，配置 oracledb 插件、测试采集输出、写入 Prometheus/VictoriaMetrics/夜莺，并导入参考 Grafana 仪表盘。

利用夜莺开源版对H3C无线设备监控

网络小斐 · 2023-12-19

以 H3C 无线 AC/AP 监控为案例，介绍如何使用夜莺开源版和 Categraf SNMP 插件配置华三无线设备指标，包括 SNMP 实例、field、table、MIB 对象类型、is_tag、index_as_tag、过滤和最终仪表盘效果。

Flashduty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成

Product Team @快猫星云 · 2023-12-18

Flashduty 2023-12-18 更新说明：增强值班管理、服务日历、自定义操作和邮件集成，覆盖轮换、节假日静默、Webhook 操作和邮件告警接入等场景。

理想的监控系统到底是什么样的？

秦晓辉@快猫星云 · 2023-12-14

理想的监控系统不是单个工具，而是一条从采集、传输、存储、可视化、告警到事件分发的链路。本文总结采集器、vmagent/Vector、VictoriaMetrics、Grafana/Nightingale、告警引擎和 OnCall 平台的职责边界。

可观测性与传统监控的区别和联系

快猫技术 · 2023-12-12

什么是可观测性？相比传统监控，可观测性是“新瓶装旧酒”吗？他们有哪些区别和联系，从传统监控到可观测性，Gap 到底有多大？

大一统的监控探针采集器 cprobe

秦晓辉@快猫星云 · 2023-12-05

cprobe 是一个面向远端监控对象的探针式采集器，尝试用统一插件、统一配置、服务发现和 Prometheus 生态兼容能力，解决 Exporter 分散部署、配置割裂和开箱体验不足的问题。

TiDB：多集群告警监控-中章-融合多集群 Grafana

longzhuquan · 2023-12-04

本文延续 TiDB 多集群监控实践，介绍如何在夜莺中统一管理多套 TiDB Grafana Dashboard，通过内置模板、JSON 导入、变量调整和业务组区分减少重复看盘成本。

TiDB：多集群告警监控-初章-监控融合、自动告警处理

longzhuquan · 2023-12-01

在 TiDB 集群数量持续增加、业务物理隔离和多套 Grafana 分散管理的背景下，本文介绍如何用夜莺统一 TiDB 多集群监控、业务组、数据源、告警规则和飞书通知模板。

途游游戏：Flashduty 案例分享

秦晓辉@快猫星云 · 2023-11-26

途游游戏在多云与 IDC 混合环境中使用 Flashduty 统一夜莺、Falcon 和云监控告警，落地 OnCall 值班、告警降噪、分派升级和告警复盘闭环。

益丰大药房：Flashduty 案例分享

秦晓辉@快猫星云 · 2023-11-23

益丰大药房将 Zabbix、Prometheus、Nightingale 和云监控告警统一接入 Flashduty，解决多监控系统告警分散、缺少认领升级和告警降噪的问题。

招贤令：一起来搞一个新开源项目

秦晓辉 · 2023-11-21

这是一篇 cprobe 项目早期招募文章，介绍为什么想做一个 Go 语言编写的探针式监控采集器，以及它和本地式采集器、Prometheus Exporter、vmagent 的边界。

夜莺项目发布 v6.5.0 版本，暗黑菜单来了

夜莺PMC · 2023-11-12

夜莺 v6.5.0 发布说明：启用新 Logo，菜单和仪表盘支持暗黑模式，团队和业务组支持多层级树展示，Host 告警筛选支持正则匹配。

知名火锅连锁企业：IT 团队如何在数千家门店中先于用户发现故障

Flashcat 产品技术 · 2023-11-09

知名火锅连锁企业使用 Flashcat 和 Categraf 集中监控上千家门店的服务器、网络、数据库、业务进程和 IT 设备，并以门店 IT 健康度评分发现、治理低质量门店。

国泰君安期货：20 套监控平台统一成 1 套 Flashcat，监控选型提效之路

宋庆羽-国泰君安期货 · 2023-11-08

国泰君安期货将 20 套异构监控平台统一到 1 套 Flashcat，通过日志结构化、指标采集、用户 ID 关联和灭火图，探索期货核心业务可观测性和统一监控平台建设路径。

夜莺专业版网络设备功能介绍

Product Team@快猫星云 · 2023-11-08

夜莺专业版网络设备采集模块基于 SNMP 方案，提供采集模板、网络设备配置、批量添加、即时查询、告警规则和仪表盘能力，帮助用户降低网络设备监控配置与维护成本。