Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI Agent

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Buyer Guide

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

夜莺监控 v7.beta8 发版，引入模板中心，修复边缘机房机器失联告警问题

巴辉特 · 2024-06-03

这个版本建立了集成中心的框架，并且修复了边缘机房机器失联告警的Bug，建议升级

SRE 排障利器，接口请求超时试试 httpstat

巴辉特 · 2024-05-29

A 服务调用 B 服务的 HTTP 接口，发现 B 服务返回超时，不确定是网络的问题还是 B 服务的问题，需要排查。此时 httpstat 就可以派上用场了，可以方便的看到各个通信环节的耗时，明确是 B 服务的问题还是网络侧的问题

提升故障应急响应速度，Flashcat平台的1-5-10实践

快猫技术 · 2024-05-27

围绕阿里巴巴 1-5-10 故障目标，说明如何用北极星指标、灭火图、事件墙和多维分析缩短发现、处置与恢复时间，帮助团队建立更快的应急响应机制。

监控GPU和InfiniBand的三种方法

夜莺 · 2024-05-24

介绍 GPU 服务器与 InfiniBand 的监控方案，对比 nvidia-smi 和 DCGM，并演示如何结合 Categraf 与 Exporter 接入夜莺。

透过 node-exporter 彻底弄懂机器监控：01. node-exporter 框架讲解

巴辉特 · 2024-05-24

node-exporter 是 Prometheus 的官方 exporter 之一，用于监控 Linux 系统的各种指标。本文是专栏第一篇，介绍 node-exporter 的框架，后面会逐步深入 node-exporter 的原理和实现。

Prometheus 聚合查询的两个方案

巴辉特 · 2024-05-22

多个 Prometheus 集群或者多个 VictoriaMetrics 集群，在 Grafana 和夜莺里通常需要创建多个不同的数据源，这也就意味着，数据没法聚合查询，比如统一做一下 sum 之类的运算会比较麻烦，本文讲述两种 Prometheus 生态的聚合查询方案，以供参考。

夜莺监控 v7.beta4 发版，仪表盘变量和业务组下的机器联动

巴辉特 · 2024-05-20

仪表盘中的变量获取来源通常来自时序库，如果要查看机器相关的仪表盘数据，并做到方便的筛选，需要机器相关的指标提前打上各类标签，这个版本开始，仪表盘变量提供了一个新的筛选方式，可以和仪表盘所在业务组联动，自动获取业务组下的机器了

夜莺监控（Nightingale）上线内置指标功能

巴辉特 · 2024-05-11

Prometheus 生态里如果要查询数据，需要编写 promql，对于普通用户来说，门槛有点高。通常有两种解法，一个是通过 AI 的手段做翻译，你用大白话跟 AI 提出你的诉求，让 AI 帮你写 promql，另一种是平台里内置现成的 promql，覆盖常用场景开箱即用。夜莺监控（Nightingale）最近上线了内置指标功能，即采用方案二，效果很棒值得尝试。

Prometheus 监控平台组件深度讲解

巴辉特 · 2024-05-10

Prometheus 是一个非常流行的监控系统，作为运维或者 SRE 工程师一定要非常熟悉，即便是普通的研发，平时也要查问题，也要会使用 Prometheus。要了解一个开源项目，需要了解其架构和设计逻辑，本文会对 Prometheus 监控平台各个组件做深度讲解

已经有 Prometheus 了，还需要夜莺？

巴辉特 · 2024-05-09

Prometheus 和 Nightingale 都被看做是监控系统，这俩是什么关系？相互替代还是相互协同？

记住三个关键开源许可证，选择开源项目不再犯难

VicLai · 2024-05-07

开源许可证对比：陆续有一些知名开源项目，出于保护商业利益的角度出发，更改了自己的开源许可证，比如：Redis、Zabbix、Grafana、ElasticSearch、Kibana 等，开源许可证应该怎么选？

细说夜莺监控系统告警自愈机制

巴辉特 · 2024-05-07

虽说监控系统最侧重的功能是指标采集、存储、分析、告警，为了能够快速恢复故障，告警自愈机制也是需要重点投入建设的，所有可以固化为脚本的应急预案都可以使用告警自愈机制来快速驱动

ETL 工具之日志提取组件选型比较

胡冲-快猫星云 · 2024-04-29

什么是ETL？ETL 是指 Extract、Transform、Load 的缩写，是一种常见的数据处理模式，用于将数据从一个数据源抽取（Extract）出来，经过转换（Transform）后加载（Load）到目标数据仓库或数据库中。如果数据源是日志文件，那么最通用的技术栈是ELK。本文对比 logstash 以及 fc-stash 两个 ETL 工具，供大家参考