Kubernetes监控手册09-监控ETCD
Kubernetes监控手册第9篇,讲解如何监控ETCD,ETCD现在使用已经越来越广泛了,不止是Kubernetes,很多业务方也在使用,需要有个深入了解。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
Kubernetes监控手册第9篇,讲解如何监控ETCD,ETCD现在使用已经越来越广泛了,不止是Kubernetes,很多业务方也在使用,需要有个深入了解。
Kubernetes监控手册第8篇,讲解 scheduler 的监控方法,scheduler 是负责调度对象到合适的 node 上,会有一系列的规则计算和筛选。重点关注调度相关的指标
要做 Kafka 的监控,首先要了解 Kafka 的一些关键概念,Kafka 的关键概念还有点多,本文对这些关键概念做一个概要介绍。
Kubernetes监控手册第7篇,讲解 controller-manager 的监控方法,controller-manager 是负责监听对象状态,并与期望状态做对比,如果状态不一致则进行调谐,重点关注的是各个controller的运行情况,比如任务数量,队列深度
Kubernetes监控手册第6篇,讲解APIServer的监控,APIServer作为Kubernetes全局统一API入口,是控制面的核心组件,APIServer如果出问题,各类增删改查都无法操作。
我们生活在一个数据大爆炸的时代,网络是互联网的载体,网络流量分析也是技术人员日常最依赖的troubleshooting手段,本文手把手讲解网络流量捕获和分析的方方面面
回顾过去二十年里 12 款典型开源监控工具,从数据采集、告警到图表展示梳理各自特点、优缺点与适用场景,适合做监控体系建设和技术选型参考。
如果您的业务还没有使用公有云,那么服务器的完整生命周期管理,是至关重要和绕不过的一个话题,本文介绍了自建IDC环境下服务器的生命周期管理。
站点可靠性运维更贴近业务,可以说是业务的大管家,本文主要介绍站点可靠性运维工作的定位,以及相关的问题和积累的经验
夜莺里有很多监控大盘,不同的组件都有自己的监控大盘,为了增强美观性,有时我们想把组件logo放到大盘里展示,具体应该如何做呢?
服务一次次挂掉,技术团队一次次应急响应、一次次复盘,我们从中学到了什么?
MySQL监控应该关注哪些指标?哪些指标比较重要?这些指标从哪里可以获取到?
夜莺监控(Nightingale)中的对象列表是从哪里来的,可以手工修改吗,为什么要设计这个功能,初衷是什么
Kubernetes监控手册第5篇,讲解Kubelet的监控,Kubelet部署在工作负载节点,相比Kube-Proxy的监控数据采集,需要引入认证和HTTPS,更复杂了一些,遵循渐进式学习原则,本文带着大家在Kubernetes监控的路上,再往前一步
Nightingale|夜莺监控,取消了树状结构的机器分组,引入了一维的业务组和标签机制,为何要这么设计?具体是如何思考的?
Kubernetes监控手册第4篇,讲解Kube-Proxy的监控,这个组件的监控非常简单容易,我们从这个组件入手,降低学习难度。
SNMP命令通常需要传入一些参数,各个参数分别代表什么意思?有哪些常见的选项?
交换机、路由器、防火墙、UPS、打印机、商业存储等的监控,大都是通过 SNMP 协议来监控,那 SNMP 到底是个什么东西?
本文讲解如何使用 categraf 的 mtail 插件从应用日志中提取 metrics 指标,这种方式对于无法埋点的应用监控非常有帮助,完全无侵入性;对于系统日志中的关键字监控也非常好用
Kubernetes监控手册第3篇,讲解Kubernetes所在宿主机的监控,我们通过Categraf来实现机器指标的采集,演示相关操作