分类：他山之石可攻玉

汇总 Flashcat 博客中归属于他山之石可攻玉分类的文章，方便按内容类型连续阅读产品实践、客户案例和可观测性方法。

按主题浏览告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

他山之石可攻玉分类文章

catpaw：会自己看病的监控 Agent

秦晓辉@快猫星云 · 2026-03-23

catpaw（猫爪）是带 AI 的轻量监控 Agent：27 个插件覆盖磁盘、证书、conntrack 等核心风险，单二进制零依赖；告警触发后自动调用 70+ 诊断工具做根因分析，随告警推送诊断报告；登录机器可用 catpaw chat 自然语言排障。适合希望告警不止于现象、而能给出初步结论与处置建议的运维团队。

使用 eBPF 在云中实现网络可观测性

Pravein Govindan Kannan | Etai Lev Ran | Priyanka Naik · 2025-12-26

使用 eBPF 实现云网络可观测性：对比 Ring Buffer、Hash Map、Array 等数据结构在流量指标收集中的性能差异，分析 Skydive、Cilium、Falco 等开源工具的实现方案。

论文阅读《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

Yiran · 2025-12-26

解读微软 Pingmesh 论文：一套大规模数据中心网络延迟监控系统，通过 Controller-Agent 架构实现每天 2000 亿次 ping 探测，用于网络故障判定、SLA 追踪和静默丢包检测。

SRE解决的核心问题究竟是什么？

汪照辉 · 2025-12-26

SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。它用软件工程、自动化工具和可靠性方法，使系统增长时运维人力不必线性增加，并以运维敏捷支撑研发敏捷。

从症状到解决方案：排查 Java 内存泄漏与内存溢出错误

Ram Lakshmanan · 2025-12-10

从症状、堆转储分析到修复验证，梳理 Java 内存泄漏和 OutOfMemoryError 排查方法：关注堆内存趋势、CPU 飙升、响应超时、Heap Dump、Dominator Tree 和 Class Histogram。

Kafka 常见错误及其解决方案

Sean Riley · 2025-10-22

本文整理 Kafka 常见错误的现象、原因和处理思路，包括 Broker 不可用、Leader 不可用、Offset 超出范围、请求超时、Unknown Topic or Partition、Not Leader For Partition、发送失败、复制因子过高和认证失败。

Kafka集群故障排除：常见问题及解决方案

Sean Riley · 2025-10-22

梳理 Kafka 集群常见性能与稳定性调优项：分区数量、ISR 滞后、网络与 I/O 线程、生产者压缩、acks、消费者 fetch、socket buffer、KRaft 超时、log.dirs 和复制因子。

Elasticsearch 常见问题排查方法

译文 · 2025-10-21

系统梳理 Elasticsearch 常见问题排查方法：备份快照、日志权限、Bootstrap 检查、Discovery 配置、集群组建、red/yellow/green 状态、分片分配和快照恢复。

5分钟学点架构模式 - 断路器模式

翻译 · 2025-06-26

断路器模式（Circuit Breaker Pattern）用于在依赖服务失败、超时或变慢时快速失败、触发降级并等待恢复。本文解释 Closed、Open、Half-Open 三种状态、适用场景、Resilience4j Java 示例和关键配置项。

ELK的替代品：Opentelemetry + OpenSearch

译文 · 2025-06-04

从传统的ELK转向由OpenTelemetry和OpenSearch驱动的技术栈，能为您的日志需求提供更灵活、高效且真正开源的解决方案。您可以借助OTel实现标准化的遥测数据收集，从日志开始，之后再添加追踪和指标数据。这是在内部构建全栈可观测性系统的第一步

开源时序库的兴起以及未来发展的观点

译文 · 2024-09-19

本文是 VictoriaMetrics 公司创始人所著，探讨了开源时序库的兴起历史、值得关注的项目以及未来的发展方向。时序库是监控、可观测性领域的基础设施，如果您是基础设施方向的工程师，尤其值得关注。

Datadog 监控最佳实践 - 如何排查性能问题

Datadog · 2024-09-19

本文整理 Datadog 高效监控系列中的故障调查方法：从最高层工作指标开始，逐层检查资源指标和事件，并用预先设计的仪表盘加快性能问题定位。

Datadog 监控最佳实践 - 针对重要事项发出警报

Datadog · 2024-09-19

本文整理 Datadog 高效监控系列中的告警方法：如何区分 record、notification、page，为什么应优先针对用户可感知的症状告警，而不是针对内部原因制造告警噪声。

Datadog 监控最佳实践 - 收集正确的数据

Datadog · 2024-09-19

本文整理 Datadog 高效监控系列中的数据采集框架：如何区分工作指标、资源指标和事件，为什么应尽可能收集有用数据，并把数据用于告警和故障诊断。

SRE 必备知识 - Kafka 探秘之零拷贝技术

Stanislav Kozlovski · 2024-08-26

Kafka 为什么会使用操作系统零拷贝？本文解释传统拷贝、zero-copy、DMA、page cache、socket buffer、scatter-gather I/O 以及 SSL/TLS 对 Kafka 零拷贝的影响。

使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标

Prathamesh Sonpatki · 2024-08-20

当应用已经接入 OpenTelemetry Trace，但指标埋点还不完善时，可以使用 SpanMetrics Connector 从 Span 中生成 RED 指标。本文说明 SpanMetrics 的配置项、Collector 管道和 Prometheus 抓取方式。

手把手教程：利用 OpenTelemetry 监控微服务

crossoverJie · 2024-06-05

基于 opentelemetry-demo 微服务项目，演示如何用 OpenTelemetry 搭建端到端可观测性系统，查看 Trace、Metrics 和数据流转。

记住三个关键开源许可证，选择开源项目不再犯难

VicLai · 2024-05-07

开源许可证对比：陆续有一些知名开源项目，出于保护商业利益的角度出发，更改了自己的开源许可证，比如：Redis、Zabbix、Grafana、ElasticSearch、Kibana 等，开源许可证应该怎么选？

ETL 工具之日志提取组件选型比较

胡冲-快猫星云 · 2024-04-29

本文以 NGINX access_log 提取为例，对比 Logstash 与 fc-stash 在配置方式、字段解析、平台化管理和压测表现上的差异，帮助团队理解日志 ETL 组件选型时应重点关注的功能、成本和运维体验。

排查 502 Bad Gateway 的常见思路

巴辉特 · 2024-04-24

从 SRE 视角梳理 502 Bad Gateway 排查路径：用 Chrome 开发者工具确认接口，用 cURL 绕过 Nginx 验证后端，结合 Nginx 日志、超时配置、容器日志和 OOM 线索定位问题。

分类：他山之石可攻玉

他山之石可攻玉 分类文章

catpaw：会自己看病的监控 Agent

使用 eBPF 在云中实现网络可观测性

论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

SRE解决的核心问题究竟是什么？

从症状到解决方案：排查 Java 内存泄漏与内存溢出错误

Kafka 常见错误及其解决方案

Kafka集群故障排除：常见问题及解决方案

Elasticsearch 常见问题排查方法

5分钟学点架构模式 - 断路器模式

ELK的替代品：Opentelemetry + OpenSearch

开源时序库的兴起以及未来发展的观点

Datadog 监控最佳实践 - 如何排查性能问题

Datadog 监控最佳实践 - 针对重要事项发出警报

Datadog 监控最佳实践 - 收集正确的数据

SRE 必备知识 - Kafka 探秘之零拷贝技术

使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标

手把手教程：利用 OpenTelemetry 监控微服务

记住三个关键开源许可证，选择开源项目不再犯难

ETL 工具之日志提取组件选型比较

排查 502 Bad Gateway 的常见思路

他山之石可攻玉分类文章

论文阅读《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》