Kubernetes OOM 和 CPU Throttling 问题
深入解析 Kubernetes OOM 和 CPU Throttling 问题:理解 limits/requests 配置、内存过量分配、CPU shares 机制,以及如何通过 Prometheus 指标监控和预防资源耗尽导致的 Pod 被杀或限流。
汇总 Flashcat 博客中归属于 Kubernetes监控专栏 分类的文章,方便按内容类型连续阅读产品实践、客户案例和可观测性方法。
深入解析 Kubernetes OOM 和 CPU Throttling 问题:理解 limits/requests 配置、内存过量分配、CPU shares 机制,以及如何通过 Prometheus 指标监控和预防资源耗尽导致的 Pod 被杀或限流。
Prometheus 监控 Kubernetes 极简教程:使用 kube-prometheus-stack 安装 Prometheus、Grafana、Alertmanager 和导出器,并完成查询、仪表板和告警配置。
Kubernetes Pod 内应用监控实操:比较 statsd、Prometheus 埋点和日志分析方案,说明 sidecar、Pod annotation 服务发现与 Prometheus agent 抓取配置。
kube-state-metrics 监控 Kubernetes 对象实操:安装 KSM、区分 8080 与 8081 指标、配置 Prometheus 抓取、理解分片、告警规则和资源过滤。
Kubernetes ETCD 监控实操:说明 /metrics 访问方式、2381 指标端口、Prometheus agent 抓取配置,以及 leader、proposal、WAL、DB 大小等关键指标。
Kubernetes scheduler 监控实操:验证 /metrics 认证、用 Prometheus agent 抓取 kube-scheduler,并理解调度队列、调度耗时、抢占和 leader election 等关键指标。
Kubernetes controller-manager 监控实操:如何验证 /metrics、配置 Prometheus agent 抓取、导入夜莺大盘,并理解 workqueue、leader election、PV/PVC 等关键指标。
Kubernetes 监控手册第 6 篇,讲解 APIServer 监控:6443 HTTPS 指标接口、Token/RBAC 认证、Prometheus agent mode 服务发现、Remote Write 上报和关键指标含义。
Kubernetes 监控手册第 5 篇,讲解 Kubelet 监控:10248 健康检查、10250 HTTPS 指标接口、ServiceAccount/RBAC 认证、Categraf DaemonSet 配置以及 Kubelet 与 cAdvisor 指标。
Kubernetes 监控手册第 4 篇,讲解 Kube-Proxy 监控:10249 指标端口、10256 健康检查、Categraf Prometheus 插件配置、DaemonSet 部署和关键指标含义。
Kubernetes 监控手册第 3 篇,演示如何用 Categraf 采集 Linux 宿主机 CPU、内存、IO、进程等指标,并通过 Remote Write 推送到 Nightingale 或其他兼容后端。
Kubernetes 监控手册第 2 篇,讲解宿主机监控的范围和采集器选型:带内 Agent、带外 IPMI/SNMP,以及 Telegraf、Grafana Agent、Datadog Agent、Node Exporter、Categraf 的适用场景。
Kubernetes 监控手册第 1 篇,从整体架构梳理 Kubernetes 监控对象:控制面组件、工作负载节点、容器运行时、Pod 应用和底层宿主环境。