包含标签 Kubernetes 的文章

Kubernetes OOM 和 CPU Throttling 问题

介绍 使用 Kubernetes 时,内存不足(OOM)错误和 CPU 限制(Throttling)是云应用程序中资源处理的主要难题。为什么呢? 云应用程序中的 CPU 和内存要求变得越来越重要,因为它们与您的云成本直接相关。 通过 limits 和 requests,您可以配置 pod 应如何分配内存和 CPU 资源,以防止资源匮乏并调整云成本。

Kubernetes监控手册11-针对部署到Pod里的应用做性能监控

Kubernetes监控手册第11篇,在Kubernetes体系里,应用程序部署在Pod里,针对这类程序应该监控,跟传统的物理机虚拟机的部署方式有何差别?

Kubernetes监控手册10-使用 kube-state-metrics 监控 Kubernetes 对象

Kubernetes监控手册第10篇,使用 kube-state-metrics 监控 Kubernetes 各类对象,比如某个 Deployment 有多少副本可用多少副本不可用,有多少 Pod 分别是什么状态之类的。

Kubernetes监控手册09-监控ETCD

Kubernetes监控手册第9篇,讲解如何监控ETCD,ETCD现在使用已经越来越广泛了,不止是Kubernetes,很多业务方也在使用,需要有个深入了解。

Kubernetes监控手册08-监控scheduler

Kubernetes监控手册第8篇,讲解 scheduler 的监控方法,scheduler 是负责调度对象到合适的 node 上,会有一系列的规则计算和筛选。重点关注调度相关的指标

Kubernetes监控手册07-监控controller-manager

Kubernetes监控手册第7篇,讲解 controller-manager 的监控方法,controller-manager 是负责监听对象状态,并与期望状态做对比,如果状态不一致则进行调谐,重点关注的是各个controller的运行情况,比如任务数量,队列深度

Kubernetes监控手册06-监控APIServer

Kubernetes监控手册第6篇,讲解APIServer的监控,APIServer作为Kubernetes全局统一API入口,是控制面的核心组件,APIServer如果出问题,各类增删改查都无法操作。

Kubernetes监控手册05-监控Kubelet

Kubernetes监控手册第5篇,讲解Kubelet的监控,Kubelet部署在工作负载节点,相比Kube-Proxy的监控数据采集,需要引入认证和HTTPS,更复杂了一些,遵循渐进式学习原则,本文带着大家在Kubernetes监控的路上,再往前一步

Kubernetes监控手册04-监控Kube-Proxy

Kubernetes监控手册第4篇,讲解Kube-Proxy的监控,这个组件的监控非常简单容易,我们从这个组件入手,降低学习难度。

Kubernetes监控手册03-宿主监控实操

Kubernetes监控手册第3篇,讲解Kubernetes所在宿主机的监控,我们通过Categraf来实现机器指标的采集,演示相关操作

Kubernetes监控手册02-宿主监控概述

Kubernetes监控手册第2篇,讲解Kubernetes所在宿主机的监控,主要是针对OS的CPU、内存等指标的监控,和传统的物理机虚拟机时代并无太大差别。

Kubernetes监控手册01-体系介绍

Kubernetes监控手册第1篇,从整体做一个介绍,让我们一起来看一下Kubernetes监控都是在监控哪些方面的内容

监控告警平台的国产化选择—Rancher 与夜莺的集成实践

身为Kubernetes管理平台的Rancher,通过 Nightingale Helm Chart,可以很方便的集成夜莺监控
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd etl flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs httpstat iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logging logs metrics metricsql mimirtool monitoring mtail mysql netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opentelemetry oracle监控 otel pagerduty pingmesh postgresql product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 告警自愈 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty