Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI Agent

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Buyer Guide

Zabbix 监控系统原理介绍

快猫运营团队 · 2024-11-01

系统介绍 Zabbix 的 Server、Agent、Proxy、Web、数据库和数据采集模型，说明 PUSH、PULL、无代理监控、数据存储和适用场景，帮助理解 Zabbix 的监控系统原理。

夜莺即时查询功能详解

巴辉特 · 2024-10-29

夜莺即时查询功能详解：说明数据源选择、PromQL 编辑器、内置指标、Table/Graph 视图、时间戳、step、单位、Tooltip、分享和多 Panel 等功能。

OpenTelemetry Collector 部署方式的选择

快猫运营团队 · 2024-10-28

介绍 OpenTelemetry Collector 的部署方式，包括 sidecar 模式、daemonset 模式和中心集群模式。不同的部署方式适用于不同的场景，需要根据实际情况选择合适的部署方式。

链路追踪中有哪些关键概念？

快猫运营团队 · 2024-10-27

系统梳理链路追踪中的 Trace、Span、Span Context、Attributes、Span Events、Span Links、Span Status 和 Span Kind，帮助理解 OpenTelemetry Tracing 的核心模型。

科普：什么是 OpenTelemetry

快猫运营团队 · 2024-10-27

OpenTelemetry 是用于分布式系统的可观测性采集框架，提供追踪、度量和日志等数据的统一标准、API、SDK 和工具，帮助团队降低埋点迁移成本并提升可观测性建设的一致性。

科普：什么是链路追踪

快猫运营团队 · 2024-10-25

链路追踪是分布式系统可观测性的重要组成部分，通过记录请求在多个服务之间的流转路径、调用关系和耗时分布，帮助团队识别性能瓶颈、定位故障并提升系统稳定性。

手把手教程：使用 Fluentbit 采集夜莺日志写入 ElasticSearch

巴辉特 · 2024-10-25

本文以 Nightingale 7.5.0 日志为例，演示如何用 Fluentbit 3.1.9 采集多行日志、用正则解析时间、级别、位置和消息字段，写入 ElasticSearch 7.15.0，并在 Kibana 中查看。

Fluentbit 采集 Node-Exporter 相关的指标

快猫运营团队 · 2024-10-24

演示如何用 Fluentbit 的 node_exporter_metrics 输入插件采集机器指标，并通过 prometheus_remote_write 输出到 Nightingale，同时说明机器元信息 Unknown 的原因和适用边界。

VictoriaMetrics 中文教程（10）集群版简介

快猫运营团队 · 2024-10-23

VictoriaMetrics 集群版简介：说明 vmstorage、vminsert、vmselect 架构，多租户 URL，集群启动方式，只读模式，replication、deduplication 和数据安全注意事项。

VictoriaMetrics 中文教程（09）VictoriaMetrics 18 条 Troubleshooting 建议和提示

快猫运营团队 · 2024-10-23

VictoriaMetrics Troubleshooting 清单：从默认参数、日志、版本升级、CPU/RAM/磁盘资源、慢写入、高基数、缓存间隙、损坏 part 和 NaN 值等角度排查性能与运维问题。

VictoriaMetrics 中文教程（08）VictoriaMetrics 的存储

快猫运营团队 · 2024-10-22

本文解释 VictoriaMetrics 的存储结构、part、block、IndexDB、后台合并和 retentionPeriod 保留策略，帮助理解数据如何写入、查询、合并、清理以及如何为不同数据设置不同保留期。

夜莺 v7.5 发版，体验再提升

Nightingale · 2024-10-22

夜莺 v7.5 主要优化告警规则列表、仪表盘 UUID 跳转链接和多项使用细节，提升告警事件联动、模板中心仪表盘下钻和日常运维体验。

VictoriaMetrics 中文教程（07）高可用（High availability）方案

快猫运营团队 · 2024-10-22

本文讲解 VictoriaMetrics 单机版高可用方案，包括跨可用区双写、vmagent 多 remoteWrite.url、Prometheus remote_write 多目标、vmauth 查询故障转移，以及 Deduplication、dedup.minScrapeInterval、promscrape.cluster.name 等去重配置。

构建告警事件平台，加速告警响应

快猫运营团队 · 2024-10-21

告警事件平台用于统一接入多套监控系统的告警，完成告警降噪、分派、排班、升级、协同和复盘，帮助团队提升告警响应效率。本文梳理告警事件平台的必要性、核心能力和 PagerDuty、Flashduty 的选型差异。

VictoriaMetrics 中文教程（06）容量规划

快猫运营团队 · 2024-10-21

本文讲解 VictoriaMetrics 容量规划方法，包括如何用测试运行估算存储空间、CPU/RAM/磁盘备用资源建议，以及 memory、search、labels API、series、Graphite 等资源限制参数的使用场景。

VictoriaMetrics 中文教程（05）对接各类监控数据采集器

快猫运营团队 · 2024-10-21

本文介绍 VictoriaMetrics 如何对接 Prometheus Exporter、Datadog Agent、Telegraf、Graphite/StatsD、OpenTSDB collector 和 NewRelic Infrastructure agent，包括 promscrape、DD_DD_URL、InfluxDB line protocol、Graphite、OpenTSDB telnet/HTTP 等写入方式。

VictoriaMetrics 中文教程（04）对接 Grafana 同时介绍 vmui

快猫运营团队 · 2024-10-21

本文介绍如何在 Grafana 中以 Prometheus 数据源方式接入 VictoriaMetrics，并说明 vmui 的访问地址、Explore 查询、Metrics explorer、Cardinality explorer、Top Queries、Query analyzer、WITH expressions playground 和 step 参数。

运维监控工具有哪些

快猫运营团队 · 2024-10-20

运维工作通常分三大方向，监控、变更、资产管理。运维监控是运维工作的重中之重，因为做好监控是稳定性保障的前提，如果监控都没做好，更何谈故障及时发现、故障快速定位呢

VictoriaMetrics 中文教程（03）如何配置 Prometheus 使其把数据远程写入 VictoriaMetrics

快猫运营团队 · 2024-10-19

本文讲解如何通过 Prometheus remote_write 把监控数据远程写入 VictoriaMetrics，包括 remote_write 配置、external_labels、多 Prometheus 区分、高负载 queue_config 调整、help 信息缺失原因，以及 vmagent 的替代思路。