分类：他山之石可攻玉

汇总 Flashcat 博客中归属于他山之石可攻玉分类的文章，方便按内容类型连续阅读产品实践、客户案例和可观测性方法。

搜索他山之石可攻玉

按主题浏览告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

他山之石可攻玉分类文章

DevOps必知概念：不可变基础设施

Bibin Wilson · 2023-06-26

解释不可变基础设施与可变基础设施的区别，说明它在 DevOps、CI/CD、镜像生命周期、补丁管理、蓝绿发布和金丝雀发布中的实践方式。

如何监控文件变化，比如密码修改导致 shadow 文件变化

秦晓辉@快猫星云 · 2023-06-25

监控 /etc/shadow 等敏感文件变化时，传统指标方案只能上报 mtime，告警文本有限。本文介绍用 catpaw filechange 插件配合 Flashduty 监控文件变化、配置告警和验证效果。

使用 JMX-Exporter 监控 Kafka 和 Zookeeper

秦晓辉@快猫星云 · 2023-06-19

JMX Exporter 可以把 Java 应用通过 JMX 暴露的 MBean 指标转换为 Prometheus 可抓取的 HTTP 指标。本文以 Kafka 和 Zookeeper 为例，说明安装、javaagent 启动参数、端口验证、采集方式和 rules 配置含义。

机器硬件监控，最简单的方案，没有之一

秦晓辉@快猫星云 · 2023-06-14

本文对比 Telegraf + Loki + Nightingale 与 catpaw sfilter 两种物理机硬件状态监控方案，演示如何通过 SNMP OID、脚本输出匹配和 Flashduty 事件推送，用一个二进制加一个脚本完成服务器健康状态告警。

core dump 路径定义以及监控

秦晓辉@快猫星云 · 2023-06-13

Core Dump 是进程异常退出时生成的内存快照文件。本文说明 core dump 的用途、ulimit 限制、core_pattern 路径和命名规则，以及如何用 catpaw mtime 插件监控新 core 文件。

如何解决系统报错：nf_conntrack: table full, dropping packets

秦晓辉@快猫星云 · 2023-06-12

系统日志出现 nf_conntrack: table full, dropping packets，通常说明连接跟踪表已接近或达到上限。本文说明如何判断、临时调大、持久化配置，并用 Categraf 或日志监控提前发现风险。

太卷了，史上最简单的监控系统 catpaw 简介

秦晓辉@快猫星云 · 2023-06-07

本文介绍 catpaw 早期版本的设计思路、安装方式、主配置、HTTP 插件、exec 插件、Flashduty 告警推送和恢复消息测试，说明轻量事件监控适合解决哪些指标监控难以表达的问题。

SRE Google 运维解密读书笔记三：服务质量目标

秦晓辉@快猫星云 · 2023-05-26

《Google 运维解密》读书笔记第三篇：解释 SLI、SLO、SLA 的区别，SRE 在 SLO 制定中的职责，以及如何选择用户体验指标、长尾延迟和业务北极星指标。

SRE Google 运维解密读书笔记二：拥抱风险

秦晓辉@快猫星云 · 2023-05-25

《Google 运维解密》读书笔记第二篇：解释为什么 SRE 要拥抱风险，如何用可用性、SLO、错误预算和 ROI 在可靠性成本与业务迭代之间做权衡。

SRE Google 运维解密读书笔记一：SRE 方法论概述

秦晓辉@快猫星云 · 2023-05-17

《Google 运维解密》读书笔记第一篇：概述 SRE 的来源、团队技能、50% 琐事原则、SLO、错误预算、监控、变更管理、容量规划和性能优化。

优化实践：Prometheus 性能和高基数问题

David Calvert · 2023-05-02

本文结合 Kubernetes 与 kube-prometheus-stack 场景，梳理 Prometheus 性能优化和高基数治理实践：从丢弃未使用指标、配置 node-exporter、使用 metric relabeling，到用 Prometheus TSDB Status、Cardinality Explorer 和 pprof 分析资源占用。

年轻人，想要学到答案，请先学会提问

秦晓辉 · 2023-04-28

技术社区提问指南：想更快得到答案，先自己排查，提供版本、配置、日志、请求响应、复现步骤和完整截图，只描述事实，保持礼貌，并在解决后回馈社区。

Prometheus 瘦身第一步，使用 mimirtool 找到没用的 Prometheus 指标

David Calvert · 2023-04-27

Prometheus 指标瘦身实践：使用 mimirtool 分析 Grafana Dashboard、Prometheus 规则和 Prometheus 实例中的指标，找出已使用与未使用指标，为基数治理和采集优化提供依据。

LinkedIn：扩展 Salt 以解决大规模机器命令执行需求

Himanshu Chandwani · 2023-04-23

LinkedIn 如何扩展 Salt 支撑大规模远程命令执行：从单 master 瓶颈，到 REST API、li-salt-master、li-minion、mTLS、ACL 和监控日志体系。

面试 LinkedIn SRE 是一种怎样的体验？

译文 · 2023-04-23

LinkedIn SRE 面试流程解读：从规模背景、电话筛选、代码与运维题，到现场故障排除、告警分级和大型网站架构设计面试。

SLICK: Facebook基于SLO的可靠性保障实践

A Posten, Dávid Bartók, Filip Klepo, Vatika Harlalka · 2023-04-19

本文介绍 Meta/Facebook SLICK 的 SLO 平台实践：统一 SLI/SLO 定义、长期保留分钟级指标、提供可发现的服务可靠性视图，并把 SLO 接入事件处理和可靠性报告工作流。

SRE 简介，和 DevOps 的关系和异同

Martina Della Corte · 2023-04-17

介绍 SRE 的基本概念、可靠性与自动化目标，并梳理 SRE 与 DevOps 在理念、实践方式、责任和代码所有权上的关系与差异。

Uber实践：运维大型分布式系统的一些心得

秦晓辉翻译 · 2023-04-13

在过去的几年里，我一直在构建和运营一个大型分布式系统：优步的支付系统。在此期间，我学到了很多关于分布式架构概念的知识，并亲眼目睹了高负载和高可用性系统不仅要构建还要运行的挑战。构建系统本身是一项有趣的工作。规划系统如何处理10x / 100x流量的增加，确保数据持久，面对硬件故障处理等等，这些都需要智慧。不管怎样，运维大型分布式系统对我来说是一次令人大开眼界的体验。