为啥我的网卡指标这么大?

有用户反馈,夜莺自带的监控大盘,查看 Linux 监控数据,发现网卡流量特别大,是不是 Categraf 采集的数据有问题?本文分析了可能的原因。
为啥我的网卡指标这么大?

夜莺监控设计思考(二)边缘机房架构思考

这将是一个系列,讲解夜莺监控的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。本篇介绍夜莺边缘机房架构思考。
夜莺监控设计思考(二)边缘机房架构思考

夜莺监控设计思考(一)整体定位、架构设计、单进程多进程选择、高可用设计

这将是一个系列,讲解夜莺监控的设计思考,可以理解为原理+最佳实践+产品设计时的折中取舍。
夜莺监控设计思考(一)整体定位、架构设计、单进程多进程选择、高可用设计

滴滴开源HUATUO,利用eBPF打通操作系统可观测性最后一公里

面向操作系统的可观测性工具 HUATUO 项目开源了。
滴滴开源HUATUO,利用eBPF打通操作系统可观测性最后一公里

Jaeger 十岁:在社区中淬炼,于 OpenTelemetry 中重生

Jaeger 作为一个项目能够持续十年,足以证明其韧性、实用性和社区力量。如今,在迎来十周年之际,我们不仅仅是在庆祝它的长寿,更是在庆祝它的深刻演变。Jaeger 已然重生,拥抱一个建立在协作、标准化以及 OpenTelemetry 惊人发展势头之上的未来。
Jaeger 十岁:在社区中淬炼,于 OpenTelemetry 中重生

什么是可观测性?可观测性成功指南

可观察性是一种方法,可以帮助您预测和预防未来的问题。它有助于根据外部输出的知识确定系统的状态。本文将详细介绍可观测性的定义、重要性、好处、挑战、支柱及其如何运作。
什么是可观测性?可观测性成功指南

利用 OpenTelemetry 实现尾采样

尾采样正在彻底改变各组织处理遥测数据的方式,在优化存储成本和系统性能的同时,以前所未有的精度捕获最有价值的追踪数据。

夜莺里如何引用标签和注解变量

夜莺里如何引用标签和注解变量?本文集中介绍了夜莺里引用标签和注解变量的两种场景,分别是告警规则和消息模板。
夜莺里如何引用标签和注解变量

SLI指南针:保真度和粒度

SLI 是可靠性工程中的一个基本概念。如果运用得当,它能从消费者的角度,依据业务目标对服务水平进行量化。本文介绍了 SLI 指南针,这是一种二维思维模型,可帮助您快速评估现有服务等级指标(SLI)的信噪比,并根据成本和复杂性评估服务等级指标。目标是帮助资深工程师、技术和工程负责人根据产品成熟度、预算、时间安排和使用模式选择合适的服务等级指标(SLI)。
SLI指南针:保真度和粒度

Grafana侧重可视化,那多数据源告警呢?

Grafana可以对接多种数据源,对其中的数据做可视化分析。实际上,Grafana也可以配置告警规则,只是设计上相对拧巴,用户用的比较少。今天为大家介绍另一款开源项目,侧重点就是多数据源告警,希望可以帮到大家。这个项目叫夜莺监控。
Grafana侧重可视化,那多数据源告警呢?

Prometheus 监控 Kubernetes Cluster 最新极简教程

本文介绍如何在 Kubernetes 集群中安装和使用 Prometheus 进行监控,包括安装 kube-prometheus-stack、查询数据、使用 Grafana 可视化等
Prometheus 监控 Kubernetes Cluster 最新极简教程

夜莺监控的几种架构模式详解

本文介绍夜莺监控(Nightingale)的几种架构模式,包括仅作为告警引擎、数据流经夜莺、边缘架构等
夜莺监控的几种架构模式详解

监控系统如何选型:Zabbix vs Prometheus

Zabbix 和 Prometheus 都是开源监控领域的佼佼者。具体在落地是如何选型呢?本文从两个产品的发展历史、集成度、演进等方面做一些对比,希望能帮助你做出更好的选择。

NetFlix SRE 实践

这是来自 NetFlix 的 CORE 团队的 SRE 工程师 Hank Jacobs 分享的 NetFlix SRE 实践,介绍了 NetFlix CORE 团队的职责、工作方式以及他们如何确保 Netflix 服务的稳定性和可靠性。

NetFlix 面试题:从 A-Z 列出 Unix 命令

这是某位仁兄去 NetFlix 面试的面试题之一,面试官要求应聘者在 5 分钟内尽可能多的写出 Unix 相关命令。以下是按字母顺序排列的常见Unix命令列表。

为 Prometheus 告警规则增加 UI 管理能力

Prometheus 体系貌似已经成为新时代的监控标准,运维出去找工作,很多公司都要求掌握 Prometheus 相关知识。但是,Prometheus 实际在应用时,通常会遇到一个典型问题:告警规则管理问题。今天为大家介绍一个开源项目,就是来解决这个问题的,它的名字是:Nightingale,即夜莺监控。
为 Prometheus 告警规则增加 UI 管理能力

如何监控多个进程的存活和CPU、内存占用

本文介绍如何使用夜莺监控(Nightingale)和 Categraf 来监控多个进程的存活性以及 CPU、内存等资源占用情况。
如何监控多个进程的存活和CPU、内存占用

何为 Prometheus 高基数?为何有时会有高基数峰值?

本文将探讨 Prometheus 中的高基数概念,分析其产生的原因以及如何应对高基数带来的挑战。
何为 Prometheus 高基数?为何有时会有高基数峰值?

我构建了公司第一个监控系统,这里是我学到的

本文分享了作者在构建公司第一个监控系统时的经验和教训,涵盖了自定义指标、最佳实践、验证指标管道等方面。
我构建了公司第一个监控系统,这里是我学到的

Java 程序监控 - Actuator、Micrometer、JMX、组件自身暴露指标

该博客涵盖了 Java 程序监控的多种方式,包括 Actuator、Micrometer、JMX 和组件自身暴露指标。

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控告警 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 面试题 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 尾采样 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat