Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI Agent

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Buyer Guide

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

最佳实践：可观测建设实践之 - 日志分析的权衡取舍

快猫技术 · 2024-03-28

本文结合稳定性保障实践，说明日志分析如何在成本、效果和落地风险之间取舍，并介绍用网关日志生成业务指标、与指标和链路追踪联动、再通过 Flashcat 串联多数据源的日志分析路径。

老张，你的服务是不是挂了？论全局 SLI 的重要性

巴辉特 · 2024-03-21

服务故障排查时，研发运维人员需要一个全局 SLI 入口来判断自身服务、下游依赖、网络链路和系统分组的健康状态。本文用一个接口延迟突增的场景说明全局 SLI、服务依赖关系和灭火图在故障定位中的价值。

别想宰我，怎么查看云厂商是否超卖？详解 cpu steal time

巴辉特 · 2024-03-20

CPU steal time 表示虚拟 CPU 等待宿主机真实 CPU 的时间比例。本文说明如何用 top 查看 st 指标，什么时候需要关注，以及如何区分自身负载高和宿主机资源争抢。

天天报警值班，老子不干了

巴辉特 · 2024-03-18

OnCall 不是让老实人长期背锅。健康的值班机制需要公平排班、补偿激励、升级机制、告警降噪、SOP 手册和稳定性隐患闭环，否则会伤害团队稳定性。

Zenlayer：如何将万台设备监控从Zabbix迁移到Flashcat

Flashcat · 2024-03-12

Zenlayer 将近万台网络设备监控从 Zabbix 迁移到 Flashcat，通过边缘部署、Categraf、SNMP 模板、Pingmesh 和多数据源接入，支撑全球边缘节点的统一可观测。

5 分钟小工具：使用 dive 分析 docker 镜像

巴辉特 · 2024-03-12

dive 是一个用于分析 Docker 镜像分层、构建命令和大文件占用的开源工具。本文说明它适合解决哪些镜像分析问题，并给出 Docker 方式和二进制方式的安装使用示例。

Vector + ClickHouse 收集日志

Denys Golotiuk, Ulric · 2024-03-07

完整演示 Vector + ClickHouse 日志采集链路：自定义 Nginx access log，创建 ClickHouse 表，用 Vector file source 读取日志、VRL 清洗字段，并通过 ClickHouse sink 写入结构化数据。

Flashcat与出行科技企业一起实践多云可观测

Flashcat · 2024-03-05

某出行科技企业从单云走向多云后，使用 Flashcat 和 Flashduty 统一多云监控、日志告警、北极星指标和灭火图，降低工具分散、重复配置、数据孤岛和告警噪声带来的可观测性复杂度。

Flashduty集成邮件告警：邮件告警还能这么玩？！

快猫技术 · 2024-03-04

老旧系统只支持邮件告警时，可以通过 Flashduty Email 集成把非结构化邮件转成可分派、可降噪、可认领、可自动关闭的告警事件。本文演示添加邮件集成、配置分派策略、提取标签和自动关闭告警的流程。

数据可视化基础篇-图形语法

戴夏清@快猫星云 · 2024-03-01

制作仪表盘时，图表选择应基于数据类型、视觉通道和表达目的。本文用图形语法解释标记、位置、颜色、形状、长度、面积等视觉通道如何映射分类数据和有序数据，并给出比较、趋势、占比、分布等常见图表选择思路。

OpenTelemetry Logging 思维导图，收藏

Flashcat · 2024-02-26

Logs 是“可观测性三支柱”中历史包袱最重的监控数据类型，日志的格式更随意，缺乏标准和规范。推荐在应用研发阶段，按照 OTel Logs 规范打印日志。

OpenTelemetry Tracing 思维导图，收藏

Flashcat · 2024-02-26

OpenTelemetry Tracing 思维导图解读：说明 Span、SpanContext、TraceId、SpanId、SpanKind、Attributes、Events、Status、异常记录、采样策略以及通过日志过渡到链路追踪的方法。

使用 nsenter 排查容器网络问题

快猫星云 · 2024-02-18

我想进入容器中执行 curl 命令探测某个地址的连通性，但是容器镜像里默认没有 curl 命令。我这里是一个内网环境不太方便使用 yum 或者 apt 安装，怎么办？这个需求比较典型，这里教大家一个简单的方法，使用 nsenter 进入容器的 net namespace，即可使用宿主机的 curl、ip、ifconfig 等命令，其效果，就跟进入容器中执行是一样的。

产品技术：网络问题排查必备利器——Pingmesh

保清@快猫技术 · 2024-02-01

介绍 Pingmesh 在大规模数据中心网络排障中的作用：基于微软论文思路，说明 Controller、Agent、pinglist、机柜/交换机探测、丢包和时延指标，以及 Flashcat-Pingmesh 的设计方案。

手把手教你免费用Flashduty做消息通知

guguji5 · 2024-02-01

手把手介绍如何用 Flashduty 免费做消息通知：注册账号、创建协作空间、配置分派策略、生成自定义事件 integration key，并通过 curl 推送测试告警。

2 分钟，了解 4 个极为有用的 MetricsQL 函数

快猫星云 · 2024-01-30

MetricsQL 扩展了 PromQL 的表达能力。本文用“5 分钟内某指标超过阈值 3 次就告警”的场景，说明 count_gt_over_time、count_le_over_time、count_ne_over_time、count_eq_over_time 这 4 类函数适合处理按次数判断的告警条件。