Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI Agent

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Buyer Guide

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

SRE 必备知识 - Kafka 探秘之零拷贝技术

Stanislav Kozlovski · 2024-08-26

Kafka 为什么会使用操作系统零拷贝？本文解释传统拷贝、zero-copy、DMA、page cache、socket buffer、scatter-gather I/O 以及 SSL/TLS 对 Kafka 零拷贝的影响。

PagerDuty 国内替代方案

快猫星云 · 2024-08-21

介绍 PagerDuty 国内替代方案 Flashduty：从告警聚合降噪、OnCall 排班、告警升级、移动协同、本土化 IM 集成、SaaS 试用和私有化部署等维度说明适用场景。

知乎：SLO 运营实践

邱天罡-知乎 · 2024-08-20

知乎如何把海量可观测数据转化为 SLO 运营能力？本文梳理知乎 Prometheus、Graphite、VictoriaMetrics 指标体系，以及基于 Flashcat 灭火图的 SLO 创建、告警、下钻和报表实践。

期货行业的 Oncall 实践

快猫星云 · 2024-08-20

基于上海某期货公司在 CCF 夜莺可观测性创新论坛的分享，梳理期货行业 Oncall 建设中的多时段交易、关键告警遗漏、高频告警治理、排班升级、CMDB 标签增强和 MTTA/MTTR 持续运营实践。

使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标

Prathamesh Sonpatki · 2024-08-20

当应用已经接入 OpenTelemetry Trace，但指标埋点还不完善时，可以使用 SpanMetrics Connector 从 Span 中生成 RED 指标。本文说明 SpanMetrics 的配置项、Collector 管道和 Prometheus 抓取方式。

解决方案：兼顾合规、便捷、可扩展，全球化的监控平台建设方案

快猫技术 · 2024-08-19

面向中国企业出海和多 Region 部署场景，介绍一种兼顾合规、网络时延、集中管理和本地自治的全球化监控平台方案：通过 Flashcat centre + edge 模式统一配置管理，同时让边缘区域在网络中断时保持本地采集、存储和告警能力。

9k star 监控系统，100% 国产，推荐了解

夜莺开发小组 · 2024-08-19

夜莺监控（Nightingale）是国产开源监控项目，侧重多数据源告警、告警规则统一管理、边缘机房告警引擎和 Prometheus 生态协同。本文从项目背景、产品架构、优势和边界介绍夜莺适合解决的问题。

夜莺 v7.2.1 发版，支持查看告警事件通知记录

Nightingale · 2024-08-16

夜莺 v7.2.1 聚焦告警事件详情页体验，新增通知结果记录查看和告警规则自愈设置，并修复仪表盘、变量和 Elasticsearch 相关问题。

14条记录日志的最佳实践，请记好，吵架用

fulya.uluturk · 2024-08-15

如何记录日志才算最佳实践？本文整理 14 条日志管理建议，覆盖日志目标、日志级别、结构化日志、上下文、采样、日志关联、轮换、告警、安全、性能和团队协作。

2024 年了，IT 运维监控系统都有哪些

知识小二 · 2024-08-12

2024 年值得关注的 IT 运维监控系统梳理：Prometheus、Grafana、Nightingale、Zabbix 以及 Cacti、Nagios 的适用场景、能力边界和选型维度。

运维 + AI，你得先搞懂这些

钱誉 · 2024-08-07

从运维场景出发，梳理 Semantic Kernel、LangChain、Prompt 工程、RAG、Fine-Tuning、CoT、ToT、ReAct 等 AI 基础概念，以及它们在告警分析、故障处理、资源优化和可观测性建设中的落地思路。

在 Kubernetes 中部署 Alertmanager

Bibin Wilson · 2024-08-06

本文演示如何在 Kubernetes monitoring 命名空间中部署 Alertmanager，并配置 Prometheus 告警地址、Alertmanager ConfigMap、告警模板、Deployment 和 NodePort Service。

在 Kubernetes 里部署 JMX Exporter 监控 Java 应用

Bibin Wilson · 2024-07-31

通过 Spring Boot Java 应用演示如何在 Kubernetes 中部署 Prometheus JMX Exporter，包括 javaagent 镜像构建、ConfigMap、Deployment、Service、Prometheus 抓取配置和 Grafana 验证。

第二届CCF·夜莺开发者创新论坛成功举办，免费领取 PPT

夜莺运营小编 · 2024-07-29

第二届 CCF·夜莺开发者创新论坛于 2024 年 7 月 26 日在北京举办，议题覆盖夜莺 v7、可观测性埋点标准化、eBPF、OnCall、多机房监控、数据治理、网络设备监控和 AI Agent 运维实践。

开源监控 - 夜莺项目 v7 正式发版了

村长 · 2024-07-29

夜莺 v7 LTS 在第二届 CCF·夜莺开发者创新论坛发布，重点增强暗黑主题、指标视图、模板中心、边缘机房告警、通知过滤、故障自愈和 Grafana 仪表盘集成。

Jenkins 高可用，到底怎么搞？

devopscube · 2024-07-24

解释开源 Jenkins 为什么难以做主主高可用，并给出基于自动扩缩组、外部数据盘、Kubernetes StatefulSet 和动态 Agent 的可落地 HA 思路。

Jenkins 架构详解 - 初学者指南

Bibin Wilson · 2024-07-24

本文面向 Jenkins 初学者，解释 Jenkins Server、Job、Plugin、Credential、Agent、Cloud、Data 和 Web Interface 等核心组件如何协同工作，并说明生产环境中需要关注的配置、凭证和备份要点。

实施 SLA、SLO 和 SLI：SRE 实用指南

Karthigayan Devan · 2024-07-23

面向 SRE 实践解释 SLA、SLO、SLI 和 Error Budget 的关系，说明如何为生产服务选择可衡量目标、落地监控指标并避免常见误区。

用实际例子讲透 Kubernetes Pod

Bibin Wilson · 2024-07-22

用 Nginx 示例讲清 Kubernetes Pod：理解 Pod 与容器的关系、Pod YAML、kubectl 创建与访问、生命周期、核心特性和关联控制器。

夜莺 v7.beta14 发版，支持灵活定义告警事件标签

巴辉特 · 2024-07-22

夜莺 v7.beta14 支持告警事件 relabel，可在告警规则中通过 replace、labeldrop、labelkeep 等操作灵活处理事件标签，减少 Kubernetes 等场景中的无关标签干扰。