Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI Agent

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Buyer Guide

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

夜莺监控常见问题 FAQ 一览

巴辉特 · 2025-12-15

夜莺监控 FAQ 汇总：解释 Nightingale 是什么、与 Prometheus/Grafana/Categraf/Flashcat/Flashduty 的关系，以及排查问题时应优先查看文档、日志和 GitHub issue。

SRE 踩坑记：JVM 暂停竟然是因为日志

译文 · 2025-12-15

一次 JVM Stop-the-World 停顿并不是 GC 算法本身变慢，而是 GC 日志写入被磁盘 I/O 阻塞。本文通过 GC 日志中的 user、sys、real 时间差异，解释如何定位问题并用 tmpfs 或异步 GC 日志规避关键路径阻塞。

从症状到解决方案：排查 Java 内存泄漏与内存溢出错误

Ram Lakshmanan · 2025-12-10

从症状、堆转储分析到修复验证，梳理 Java 内存泄漏和 OutOfMemoryError 排查方法：关注堆内存趋势、CPU 飙升、响应超时、Heap Dump、Dominator Tree 和 Class Histogram。

给首次担任专家级 SRE（网站可靠性工程师）的几点建议

译文 · 2025-12-08

给首次担任 Staff SRE 或专家级 SRE 的实践建议：如何从个人救火转向组织级可靠性影响力，推动跨团队协作、系统化改进、健康值班和长期可靠性工程。

怎么记日志才算专业，SRE、DEV 都应该了解的实践指南

Mike Shi · 2025-12-05

本文从日志目的、上下文、结构化、指标与追踪分工、日志级别和采集过滤几个方面，说明怎样把日志从无用流水账变成可用于排障、关联分析和成本控制的可观测证据。

将 Syslog 数据通过 Fluent Bit 发送到 Elasticsearch

Sharad Regoti · 2025-12-01

使用 Docker Compose 搭建 Fluent Bit 集中式 Syslog 收集器，通过 UDP 接收 Alpine logger 日志，并将 Syslog 数据转发到 Elasticsearch 索引中验证。

了解谷歌核心网页指标（Google Core Web Vitals）：搜索引擎优化和用户体验的颠覆者

快猫运营团队 · 2025-12-01

系统介绍 Google Core Web Vitals 的 LCP、INP、CLS 三项核心指标，说明它们与 SEO、SEA、用户体验和 RUM 监控的关系，并给出桌面端、移动端优化建议。

2025 年 Golang 日志库综述

译文 · 2025-11-27

梳理 Go 日志库选型：标准库 log 与 slog、Logrus、Zap、Zerolog 的适用场景、结构化日志示例、框架集成方式和生产日志最佳实践。

RUM 与其他监控工具（ Synthetic 和 Google Analytics ）对比

钱程 · 2025-11-26

对比 RUM（真实用户监控）、Synthetic Monitoring（合成监控）和 Google Analytics（GA）的数据来源、使用对象、诊断深度和适用场景，帮助团队选择合适的监控与分析组合。

科普：什么是 RUM（真实用户监控 Real User Monitoring）

快猫运营团队 · 2025-11-26

RUM（真实用户监控 Real User Monitoring）是一种从真实用户访问中采集网站性能和体验数据的被动监控方式，可帮助企业理解页面加载速度、地域差异、设备和浏览器影响、错误现场与业务体验。

可观测性理念：宽事件实践指南

Jeremy Morrell · 2025-11-20

宽事件（Wide Events）是一种强大的可观测性实践方法，能够显著提升系统调试效率与可见性。本文将介绍如何在实际项目中应用宽事件理念，包括所需工具、代码实现思路及属性添加清单，帮助开发者更好地理解和实践这一理念。

RUM（真实用户体验监控）介绍、优势、采样与挑战

快猫技术 · 2025-11-18

系统介绍 RUM（真实用户体验监控）的定义、优势、工作流程、采样方式和存储挑战，并说明 Flashduty RUM 在趋势指标与原始数据采样存储上的推荐做法。

Docker 容器网络浅析

Akaash Vishal Hazarika · 2025-11-18

Docker 多容器应用不要依赖临时 IP 或过时的 --link。本文从默认 bridge 网络的问题讲起，解释用户自定义桥接网络、Docker DNS 服务发现、Compose 自动网络和 host、overlay、none 等网络驱动的适用场景。

在 Kubernetes 中构建统一的 OpenTelemetry 流水线

译文 · 2025-11-17

通过 OpenTelemetry 在 Kubernetes 集群中实现指标、日志和追踪数据的统一流水线，提升可观测性和故障排查效率。

SRE 实践真经：可观测性、SLOs、Runbooks 与事故报告

fatihkoc · 2025-11-14

本文聚焦于将可观测性转化为可靠性的人员体系，介绍如何定义能指导决策的 SLO、构建可扩展团队知识的运行手册、设计能推动改进的结构化事后分析，以及如何将这些实践融入工程文化。

OpenTelemetry 整合 Prometheus？目前尚不美好

Julius Volz · 2025-11-13

如果主要目标是在 Prometheus 中使用指标，直接用 OpenTelemetry SDK 埋点并不总是最佳选择。本文从目标健康监控、指标命名转换、资源标签、OTLP 接收配置、SDK 复杂度和性能开销等方面，解释为什么 Prometheus 原生客户端库仍然更适合 Prometheus 指标场景。