如何优化 PromQL 和 MetricsQL 查询
PromQL和MetricsQL是强大的查询语言。它们允许编写简单的查询,用于构建漂亮的时间序列数据图形。它们还允许编写复杂的查询,用于SLI / SLO计算和警报。但优化PromQL查询可能很困难。本文介绍了如何确定缓慢的PromQL查询,如何理解查询成本以及如何优化这些查询,使其执行更快并消耗更少的CPU和RAM。
汇总 Flashcat 博客中归属于 他山之石可攻玉 分类的文章,方便按内容类型连续阅读产品实践、客户案例和可观测性方法。
PromQL和MetricsQL是强大的查询语言。它们允许编写简单的查询,用于构建漂亮的时间序列数据图形。它们还允许编写复杂的查询,用于SLI / SLO计算和警报。但优化PromQL查询可能很困难。本文介绍了如何确定缓慢的PromQL查询,如何理解查询成本以及如何优化这些查询,使其执行更快并消耗更少的CPU和RAM。
如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。
在 VictoriaMetrics 中,有些指标不想要了,如何删除?或者有些数据不对,如何更新?
chatGPT真的是太火爆了,Notion跟进,现在Office也跟进,对文字工作者是非常大的冲击,下面这个文章,《SNMP Exporter的使用样例和注意事项》完全由 NotionAI生成,有点牛逼啊
我明明没起什么应用程序,Linux怎么显示free的内存快到0了?是不是操作系统有内存泄露啊?
这是Netflix在Medium发表的一篇博客,时间是2015年,影响力巨大,特地翻译了一下放到快猫站点上,以飨读者。核心是讲解如何在一分钟内通过各类命令分析Linux性能问题
众所周知,开发和IT运营之间因为屁股决定脑袋,存在巨大的鸿沟,而网站可靠性工程师(SRE)在开发和IT运营之间建立了一座桥梁,SRE会承担原本属于IT运营的一部分工作内容,不过SRE的工作方式和传统的IT运营很不相同,SRE有很强的研发能力,他们通过创建可扩展和可靠的软件系统来解决问题。
Telegraf 作为一个指标层面的 all-in-one 的采集器,用途广泛,Telegraf 具备多种 output 插件,本篇介绍如何使用 prometheus remote write 方式发送数据给后端。
HAProxy 作为一款非常流行的软件负载均衡器,在很多公司都有应用,本文介绍如何采集 HAProxy 的监控指标,对 HAProxy 做监控。
Hadoop HDFS 的监控非常典型,有两种数据采集方法,这一篇介绍第一种,通过 Jolokia 获取 JMX 数据的方式。
grok_exporter 是一个类似 mtail 的方案,可以流式读取日志文件,通过正则做匹配提取指标,相比 mtail 更为简单直观。不过数据计算方面灵活性稍差。
要做 Kafka 的监控,首先要了解 Kafka 的一些关键概念,Kafka 的关键概念还有点多,本文对这些关键概念做一个概要介绍。
MySQL监控应该关注哪些指标?哪些指标比较重要?这些指标从哪里可以获取到?
SNMP命令通常需要传入一些参数,各个参数分别代表什么意思?有哪些常见的选项?
交换机、路由器、防火墙、UPS、打印机、商业存储等的监控,大都是通过 SNMP 协议来监控,那 SNMP 到底是个什么东西?