Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

最新文章

连锁门店如何做好可观测性

快猫技术 · 2025-02-17

连锁门店可观测性既要看服务端，也要覆盖全国门店端设备、网络和程序。本文总结 Flashcat 用灭火图、北极星、Categraf 和 Flashduty 建设连锁门店稳定性保障体系的方法。

监控指标的含义说明在哪里看

快猫运营团队 · 2025-02-14

Categraf、Prometheus Exporter 等采集器会暴露大量英文监控指标。本文说明可以从仪表盘、告警规则、夜莺指标视图、源码和官方文档中查找指标含义，并解释为什么很难有一个地方覆盖全部指标说明。

夜莺监控发布 v8.beta5 版本，优化 UI，新增接口认证方式便于鉴权

快猫运营团队 · 2025-02-14

夜莺监控 v8.beta5 版本新增用户自定义 token 接口鉴权、时序数据转发 Kafka、仪表盘 annotations 与阈值样式优化，并调整告警规则数据源筛选 UI。

MySQL 监控需要了解哪些方面的知识

快猫运营团队 · 2025-02-13

MySQL 监控应同时覆盖进程存活、日志、性能指标、连接、慢查询、锁等待、磁盘 I/O 和复制状态，并结合 SHOW STATUS、Performance Schema、慢查询日志和监控系统定位问题。

Sentry 开源了其监控数据采集器 MetricsHub

巴辉特 · 2025-02-12

MetricsHub 是 Sentry 开源的监控数据采集器，侧重服务器、存储、交换机等 IT Infra 和网络设备采集，可通过 OpenTelemetry 协议把指标发送到 Prometheus、Grafana Cloud、Datadog、Splunk 等后端。本文介绍 MetricsHub 的定位、工作方式、快速开始和 connectors 价值。

解决方案：出海企业如何建设可观测性体系？

快猫技术 · 2025-02-11

出海企业建设可观测性体系时，需要同时处理跨地域业务、安全合规、带宽成本、多云观测系统和 24 小时值班保障。本文梳理这些挑战，并介绍 Flashcat 与 Flashduty 的统一观测架构思路。

最佳实践：统一观测系统建设中存量系统如何处理

快猫技术 · 2025-02-11

存量观测系统多、数据源分散，是统一观测平台建设的第一道难题。本文对比完全重建、转储转换和 API 对接三类路径，并说明 Flashcat 为什么优先选择数据源集成。

10 个问题测试你对 K8s 的理解程度

Rifewang · 2025-02-10

本文用 10 个 Kubernetes 问题检验对调度、OOM、ConfigMap、Pod 稳定性、Service 负载均衡、日志采集、探针、扩缩容、kubectl exec 和 CrashLoop 排障的理解。

告警事件如何与 CMDB 打通附加更多元信息

双磊 · 2025-02-08

告警事件产生后，可以通过 Relabel、Enrichment、映射标签和 Callback 与 CMDB 打通，补齐 owner、SOP、服务归属等上下文，降低沟通成本并提升 OnCall 排障效率。

进程监控，有效的黑盒监控手段

快猫 · 2025-02-07

介绍进程监控的目标、原理和 Categraf procstat 配置方法，说明如何通过 /proc、进程名、cmdline、资源指标和 JVM 采集实现进程存活与资源消耗监控。

两种告警降噪的思路

快猫 · 2025-02-06

讲解两种告警降噪思路：固定时间窗口聚合告警事件，以及 Flashduty 的滑动窗口合并与实时通知，对比实时性、收敛效果和适用场景。

ElasticSearch query_string 语法样例，收藏备用

快猫星云 · 2025-01-21

ElasticSearch query_string 语法入门样例，覆盖 match、match_phrase、wildcard、range、exists 和多条件组合查询，适合日志监控和夜莺过滤条件配置参考。

Grafana统一可视化了，告警如何统一？

巴辉特 · 2025-01-20

Grafana 已经帮助很多团队统一可视化，但告警仍常分散在 Prometheus、日志、链路和云监控系统中。本文说明为什么告警需要统一，并拆解 Flashduty 在事件生成、事件分发、收敛降噪、排班认领和升级策略上的设计思路。

数据可视化用 Grafana，告警就用 Flashduty

巴辉特 · 2025-01-19

多套监控和可观测性系统如何统一体验：可视化层用 Grafana 聚合多数据源，告警层用 Flashduty 统一事件产生、收敛、分发、排班、升级和 OnCall 协同。

Flashduty 支持了引擎失联告警功能，大幅提升可用性

巴辉特 · 2025-01-18

Flashduty 告警引擎功能提供了失联告警能力，即在引擎失联之后可以自动生成告警事件，通知系统维护人员，大大提升了 Flashduty 告警引擎的可用性

做开源商业化创业3年，一点小感悟

巴辉特 · 2025-01-17

夜莺开源项目背后是有一个商业团队持续支持的，这样项目的生命力会更为持久，基于这个开源项目做商业化也有3年了，本文是一些创业思考

高效的OnCall机制：从理念到实践

快猫星云 · 2025-01-12

告警 OnCall 机制是企业运维团队保障业务连续性的重要手段，本文介绍了为什么要有值班制度、设计高效值班制度的核心要素、在 Flashduty 中的值班实践以及案例分享。

夜莺监控支持 ES 日志告警了

Nightingale · 2025-01-08

夜莺监控从 v8.beta3 开始支持 Elasticsearch 日志告警，可通过索引、过滤条件、日期字段、时间范围和数值提取配置日志阈值告警。

Flashduty 监控告警功能简介

巴辉特 · 2025-01-08

Flashduty 不只处理告警分发和 OnCall 协作，也提供 Monitors 告警引擎能力。本文说明 monitedge 架构、数据源接入、告警规则配置、阈值判定/数据缺失/数据存在三种模式，以及从安装到查看告警的上手流程。

ETCD 关键监控指标

快猫运营团队 · 2025-01-06

梳理 Kubernetes 中 etcd 的工作原理、Raft 一致性机制和关键监控指标，覆盖资源、磁盘、网络、Watch、Raft 与 kube-apiserver 请求延迟等排障信号。

快猫星云联系方式

快猫星云联系方式

快猫星云联系方式

快猫星云Email

申请技术交流产品试用

快猫星云

产品

可私有化部署的全栈智能观测平台

SaaS 化的智能告警响应平台

SaaS 化的真实用户监控平台

开源项目

云原生监控告警系统

All-in-one 数据采集器

用户落地实践与案例集入口

开发者中心

集成开发文档与工具

产品使用指南与 API 参考

获取最新安装包与工具

产品演示与教程

技术分享与行业话题