Flashcat 博客

围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新，沉淀一线工程实践、选型参考和稳定性治理方法。

查看解决方案

按主题浏览 AI SRE 告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

精选内容

AI Agent

FlashAI：从观测系统到 AI SRE 的 Agent 化演进

可观测性进入全自然语言交互时代。

AI SRE

AI SRE 智能排障解决方案

从告警到诊断报告，把观测数据、诊断 Agent、MCP 工具调用和 On-call 响应流程连接起来。

Buyer Guide

Flashcat vs Zabbix

从传统监控、云原生、多云、日志链路事件和迁移路径看平台选型差异。

HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析

秦晓辉 · 2025-07-18

整理第三届 CCF·夜莺开源创新论坛中张同浩关于 HUATUO 的分享，覆盖 eBPF 内核可观测、系统故障分析挑战、持续性能剖析和 GPU 大模型性能剖析。

突破指标上限：Zepto 借助 Mimir 实现的可观测性演进

钱程 · 2025-07-17

Zepto 从 Prometheus + Thanos 迁移到 Grafana Mimir，用多租户指标平台解决 OOM、慢查询、告警中断和查询扇出问题。本文梳理迁移背景、架构选择、关键挑战和经验教训。

使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建完整的可观测性技术栈

快猫运营团队 · 2025-07-16

使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建可观测性技术栈，本文演示 Docker Compose 下日志采集、OTLP 转发、Loki 存储、Grafana 数据源和 Loki 标签配置。

掌握这些能力，工资翻倍不成问题

快猫运营团队 · 2025-07-16

SRE 想提升职业竞争力，不能只重复日常运维工作，而要系统提升底层技术、故障响应、架构规划、协作沟通和业务理解能力。

负载均衡100,000个WebSocket连接：HAProxy、Nginx与自定义方案的对比

快猫运营团队 · 2025-07-15

对比 HAProxy、Nginx 与自定义方案负载均衡 100,000 个 WebSocket 连接的实践：包括会话持久性、NAT 问题、连接建立时间、内存开销、运营成本和最终选型建议。

从首席工程师身上学到的10条经验教训

快猫运营团队 · 2025-07-14

与首席工程师共事一年后总结的 10 条工程成长经验：可维护代码、稳健交付、业务理解、代码历史、沟通能力、日志、取舍判断和帮助团队成长。

Kafka 不难，只是你用得不对

Abhinav · 2025-07-11

Kafka 难用往往不是工具本身的问题，而是主题建模、消费者组、状态流转、发件箱、重试队列和 Schema 演进没有设计好。本文用 6 个模式说明 Kafka 如何支撑可靠的事件驱动架构。

从 1 到 100 万用户：我真希望早点知道的架构

译文 · 2025-07-10

从单体应用、Nginx、MySQL 到 Redis、Kafka、分库分片、可观测性和 CDN，复盘一个产品从 100 用户增长到 100 万用户时的架构演进路径与瓶颈治理经验。

值得收藏的 8 个 Python 库

快猫运营团队 · 2025-07-09

整理 8 个实用 Python 库：Rich、Typer、Pendulum、Pydantic、Faker、tqdm、Requests-HTML 和 Loguru，覆盖 CLI、参数解析、日期时间、数据验证、测试数据、进度条、网页抓取和日志记录。

Kubernetes YAML 编写技巧和坑

快猫运营团队 · 2025-07-08

Kubernetes YAML 编写最容易踩坑的地方包括 Tab 缩进、布尔值自动转换、数字和日期类型推断、键名歧义、锚点复用和 lint 校验。本文给出实践建议和排查清单。

夜莺 v8 正式版，来了

Nightingale · 2025-07-07

总结夜莺 v8 正式版的核心升级，包括更多数据源告警支持、事件 Pipeline、通知规则抽象、机器告警优化和新版告警全景看板。

软件工程里的鲁棒性（Robustness）和弹性（Resilience）到底是什么？

快猫运营团队 · 2025-07-02

解释软件工程中的鲁棒性 Robustness 和弹性 Resilience：二者分别关注异常下不崩溃和故障后可恢复，并通过 API、微服务、网站和数据库示例对比。

可观测性 Observability 3.0 是个啥

翻译 · 2025-06-30

可观测性 3.0 是个啥？本文介绍了可观测性 3.0 的背景、目标和实现方式，强调了成本效率和智能数据收集的重要性。

大厂实践：Airbnb 使用 Impulse 进行负载测试

翻译 · 2025-06-27

Airbnb 内部负载测试框架 Impulse 的实践解析：如何通过上下文感知负载生成、依赖项模拟、生产流量采集与回放、测试 API 生成，在 CI/CD 中完成自助式负载测试和容量验证。

开源夜莺监控DIY发版时告警静默

网友投稿 · 2025-06-26

基于夜莺监控 Pipeline、Event Update 和 Event Drop，把发版系统与告警事件联动，实现发布期间自动静默相关告警。

5分钟学点架构模式 - 断路器模式

翻译 · 2025-06-26

断路器模式（Circuit Breaker Pattern）用于在依赖服务失败、超时或变慢时快速失败、触发降级并等待恢复。本文解释 Closed、Open、Half-Open 三种状态、适用场景、Resilience4j Java 示例和关键配置项。

夜莺监控V8发版，内置支持 DeepSeek 对接

快猫运营团队 · 2025-06-23

夜莺监控发布了 v8.beta14 版本，新增 Postgres 告警支持和 AI Summary 处理器，增强业务监控能力。

夜莺监控（Nightingale）与 Grafana 深度整合

flycat · 2025-06-17

用 Keycloak 与 OIDC 打通夜莺监控和 Grafana：统一 SSO 登录，并将 Grafana 内嵌到夜莺，实现一个入口管理告警、通知和可视化大盘。

十年磨一剑，运维监控、可观测性领域创业，拼的是产品细节和交付能力

秦晓辉 · 2025-06-17

秦晓辉复盘在运维监控和可观测性领域创业的判断：为什么创业、为什么选这个赛道、解决什么痛点、Flashduty 与 Flashcat 的产品区别，以及 To B 产品长期存续靠什么。

categraf 主配置文件解析

笨鸟先飞@夜莺社区 · 2025-06-13

逐项解析 Categraf 主配置文件 config.toml，说明 global、log、writer、http、ibex、heartbeat、prometheus 等关键配置的作用、默认部署含义和排查重点。