分类：他山之石可攻玉

汇总 Flashcat 博客中归属于他山之石可攻玉分类的文章，方便按内容类型连续阅读产品实践、客户案例和可观测性方法。

按主题浏览告警治理用户案例 Nightingale Categraf Prometheus Kubernetes Zabbix

他山之石可攻玉分类文章

如何优化 PromQL 和 MetricsQL 查询

Aliaksandr Valialkin · 2023-04-10

优化 PromQL 和 MetricsQL 查询，先判断慢查询，再分别检查时间序列数量、原始样本数量、重复处理样本、高流失率标签和复杂二元运算，最后通过标签过滤、缩短窗口、调大 Grafana step 等方式降低 CPU、RAM 和 IO 消耗。

SRE接手新业务首要工作：运维准入测试

秦晓辉@快猫星云 · 2023-03-24

SRE 接手新业务前要做运维准入测试，把架构、容量、稳定性、安全、可观测性和责任边界前置验证，避免上线后由运维替设计缺陷背锅。

如何在 VictoriaMetrics 中删除或修改指标

秦晓辉@快猫星云 · 2023-03-23

说明如何在 VictoriaMetrics 中使用 delete_series 删除指标，以及通过导出、修改、删除、重新导入的流程间接更新指标数据，并提示删除 API 的性能和合规边界。

使用AI写篇文章：SNMP Exporter 的使用样例和注意事项

秦晓辉@快猫星云 · 2023-03-17

以一篇由 NotionAI 生成的 SNMP Exporter 示例为基础，介绍 SNMP Exporter 的用途、基础配置、Prometheus 抓取方式和使用注意事项，帮助读者理解 SNMP 设备指标如何进入 Prometheus。

啥！Linux吃掉了我的内存！

译文 · 2023-03-01

解释 Linux 为什么看起来吃掉了内存：free/top 中 used、free、buff/cache、available 的含义，以及何时才需要担心内存不足。

秘籍：分析Linux性能问题！只要一分钟！

译者：秦晓辉@快猫星云 · 2023-02-27

本文意译 Netflix 技术博客 Linux Performance Analysis in 60,000 Milliseconds，介绍如何在登录服务器后的 60 秒内用 uptime、dmesg、vmstat、mpstat、pidstat、iostat、free、sar 和 top 快速判断 CPU、内存、磁盘、网络和进程瓶颈。

网站可靠性工程师

译者：秦晓辉@快猫星云 · 2023-02-26

什么是网站可靠性工程师 SRE：解释 SRE 与 DevOps 的关系、SRE 的职责、技能要求、日常工作、常见工具和收入参考，说明 SRE 如何用软件工程方法提升系统可靠性。

Telegraf 发送指标给 Prometheus

秦晓辉@快猫星云 · 2023-02-01

介绍如何用 Telegraf 的 outputs.http 插件通过 Prometheus remote write 协议发送指标到 Nightingale 或 Prometheus，并说明 host 标签冲突和 agent_hostname 配置建议。

HAProxy 监控

秦晓辉@快猫星云 · 2023-01-04

HAProxy 可通过内置 Prometheus exporter 或 stats CSV 接口暴露监控数据。本文介绍不同 HAProxy 版本的暴露方式，并演示使用 Categraf HAProxy 插件采集、验证指标和导入仪表盘。

Apache Hadoop HDFS 监控

秦晓辉@快猫星云 · 2022-12-27

Hadoop HDFS 监控的关键是从 NameNode 和 DataNode 获取容量、节点、块、JVM、GC 等指标。本文介绍通过 Jolokia 将 JMX 暴露为 HTTP 接口，并使用 Categraf 采集 HDFS 指标的配置方法。

使用 grok_exporter 从日志中提取指标(日志监控)

秦晓辉@快猫星云 · 2022-12-18

本文用登录日志示例说明如何用 grok_exporter 从非结构化日志中提取 Prometheus 指标，包括安装、Grok pattern、metrics 映射、标签提取和 /metrics 验证。

Kafka 关键概念，什么是AR、OSR、ISR、HW和LEO以及之间的关系

秦晓辉@快猫星云 · 2022-11-29

做 Kafka 监控前，需要理解副本、AR、ISR、OSR、HW 和 LEO 等关键概念。本文解释这些术语的定义、关系和消费者可见性的变化过程，帮助理解 Kafka 副本同步与高水位机制。

MySQL监控概述

秦晓辉@快猫星云 · 2022-11-16

MySQL 监控应优先关注查询吞吐量、查询性能、连接数和 InnoDB 缓冲池，并结合服务器状态变量、Performance Schema、sys schema 和慢查询日志获取关键指标。

SNMP命令相关参数介绍

秦晓辉@快猫星云 · 2022-11-08

介绍 snmpget、snmpwalk 等 SNMP 命令常见认证参数，包括 SNMP 版本、community、用户名、安全级别、认证协议、加密协议和口令，并给出 v2c 与 v3 查询 OID 的命令样例。

SNMP(简单网络管理协议)简介

秦晓辉@快猫星云 · 2022-11-07

介绍 SNMP（简单网络管理协议）的基本概念，包括 SNMP manager、SNMP agent、MIB、OID、PDU 命令和 v1/v2c/v3 版本差异，帮助理解交换机、路由器、防火墙、UPS 等设备监控的基础。