Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI Agent

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Buyer Guide

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

夜莺项目发布v6.0.2版本，增强日志查看能力

夜莺项目管委会 · 2023-08-14

夜莺 v6.0.2 发布说明：增强仪表盘排查能力、订阅规则支持业务组、Elasticsearch 即时查询支持字段值快速过滤，并优化 Loki 数据源校验。

可观测性平台夜莺开源项目发布V6正式版！

秦晓辉 · 2023-08-07

夜莺开源项目在 2023 年 7 月底发布 V6 正式版，项目目标从开源监控系统升级为开源可观测性平台。V6 引入 ElasticSearch 日志数据源、内置中间件大盘和告警规则，简化架构与配置，并明确 LTS 和小版本发布节奏。

纯粹的干货分享，CCF夜莺·2023可观测性论坛完满收官

秦晓辉@快猫星云 · 2023-07-31

本文回顾 CCF夜莺·2023可观测性高峰论坛：论坛于 2023 年 7 月 28 日在北京举行，围绕夜莺 V6、BPF、云监控、医疗、连锁药房、高精度定位、金融、高校和故障定位等实践展开分享。

Flashduty Changelog 2023-07-24

于双羽@快猫星云 · 2023-07-24

Flashduty 2023-07-24 更新重点包括告警聚合、风暴预警、抖动收敛、故障分派升级、通知过程展示，以及 Webhook 按协作空间和事件类型过滤。

如何发现及处理 MySQL 主从延迟问题

Muhammad Irfan · 2023-07-20

MySQL 主从延迟排查要先区分 IO_THREAD 和 SQL_THREAD：看主从 binlog 位置、relay log 堆积、Seconds_Behind_Master 的局限，再针对网络、慢 SQL、缺少主键、大事务和诊断采集逐项处理。

开源的Datadog？可观测性平台SigNoz是否名副其实？

秦晓辉@快猫星云 · 2023-07-18

基于 SigNoz 官网介绍和本地 Docker Compose 体验，初步评估 SigNoz 在 OpenTelemetry、ClickHouse、Trace、Logs、Dashboard、Alert 和权限模型上的产品设计。

监控系统自监控怎么做？

秦晓辉@快猫星云 · 2023-07-10

监控系统自监控要避免循环依赖：正常情况采集 Prometheus、VictoriaMetrics、Nightingale 等自身 /metrics，严重故障则用 catpaw + Flashduty 做外挂存活监控和独立告警兜底。

可观测性是什么？入门指南

王梓禾@快猫星云 · 2023-06-28

可观测性是根据系统输出数据理解系统内部状态的能力，常见数据包括日志、指标和链路追踪。本文介绍可观测性的定义、与监控的区别、主要收益、三大支柱、实践方法和落地挑战。

DevOps必知概念：不可变基础设施

Bibin Wilson · 2023-06-26

解释不可变基础设施与可变基础设施的区别，说明它在 DevOps、CI/CD、镜像生命周期、补丁管理、蓝绿发布和金丝雀发布中的实践方式。

如何监控文件变化，比如密码修改导致 shadow 文件变化

秦晓辉@快猫星云 · 2023-06-25

监控 /etc/shadow 等敏感文件变化时，传统指标方案只能上报 mtime，告警文本有限。本文介绍用 catpaw filechange 插件配合 Flashduty 监控文件变化、配置告警和验证效果。

使用 JMX-Exporter 监控 Kafka 和 Zookeeper

秦晓辉@快猫星云 · 2023-06-19

JMX Exporter 可以把 Java 应用通过 JMX 暴露的 MBean 指标转换为 Prometheus 可抓取的 HTTP 指标。本文以 Kafka 和 Zookeeper 为例，说明安装、javaagent 启动参数、端口验证、采集方式和 rules 配置含义。

面向故障处理的可观测性体系建设

秦晓辉@快猫星云 · 2023-06-15

可观测性体系的目标不是堆 metrics、logs、traces，而是帮助技术团队快速发现故障、定位直接原因并完成止损。本文从故障生命周期、结果类指标、数据特征、观点和洞察几个层次，说明面向故障处理的可观测性应该如何建设。

机器硬件监控，最简单的方案，没有之一

秦晓辉@快猫星云 · 2023-06-14

本文对比 Telegraf + Loki + Nightingale 与 catpaw sfilter 两种物理机硬件状态监控方案，演示如何通过 SNMP OID、脚本输出匹配和 Flashduty 事件推送，用一个二进制加一个脚本完成服务器健康状态告警。

core dump 路径定义以及监控

秦晓辉@快猫星云 · 2023-06-13

Core Dump 是进程异常退出时生成的内存快照文件。本文说明 core dump 的用途、ulimit 限制、core_pattern 路径和命名规则，以及如何用 catpaw mtime 插件监控新 core 文件。

如何解决系统报错：nf_conntrack: table full, dropping packets

秦晓辉@快猫星云 · 2023-06-12

系统日志出现 nf_conntrack: table full, dropping packets，通常说明连接跟踪表已接近或达到上限。本文说明如何判断、临时调大、持久化配置，并用 Categraf 或日志监控提前发现风险。

太卷了，史上最简单的监控系统 catpaw 简介

秦晓辉@快猫星云 · 2023-06-07

本文介绍 catpaw 早期版本的设计思路、安装方式、主配置、HTTP 插件、exec 插件、Flashduty 告警推送和恢复消息测试，说明轻量事件监控适合解决哪些指标监控难以表达的问题。

Flashcat 系列白皮书，免费收藏

Flashcat产品技术 · 2023-06-06

Flashcat 系列白皮书围绕可观测性成熟度、稳定性体系建设、Flashcat 产品能力和 OnCall 体系展开，帮助团队理解从传统监控到可观测平台的建设路径。

SRE Google 运维解密读书笔记三：服务质量目标

秦晓辉@快猫星云 · 2023-05-26

《Google 运维解密》读书笔记第三篇：解释 SLI、SLO、SLA 的区别，SRE 在 SLO 制定中的职责，以及如何选择用户体验指标、长尾延迟和业务北极星指标。

SRE Google 运维解密读书笔记二：拥抱风险

秦晓辉@快猫星云 · 2023-05-25

《Google 运维解密》读书笔记第二篇：解释为什么 SRE 要拥抱风险，如何用可用性、SLO、错误预算和 ROI 在可靠性成本与业务迭代之间做权衡。

Flashduty Changelog 2023-05-18

于双羽@快猫星云 · 2023-05-18

Flashduty 2023-05-18 更新重点包括告警管理交互升级、分析看板 MTTx 指标、Alert 与 Incident Webhook、阿里云 SLS、腾讯蓝鲸和 Zabbix 集成增强。