Flashduty vs Pagerduty,产品、服务和价格深入对比

从产品、服务与价格三个维度探讨IT管理人员在为开发运维团队寻找高效协作的故障管理解决方案时应该提出的问题。
Flashduty vs Pagerduty,产品、服务和价格深入对比

晚上总被电话吵醒?OnCall来帮你

告警风暴是作为技术人员尤其是运维人员的巨大痛点,有时甚至一周七天每天被吵醒,而老板安排的活白天还要照干不误,导致精神疲惫,有没有什么办法可以破解这个难题呢?
晚上总被电话吵醒?OnCall来帮你

使用 夜莺+Categraf 快速建设 Redis 监控

Redis 是极为常用的缓存数据库,本文介绍使用 Categraf 快速建设 Redis 监控,夜莺的模板中心中已经内置了一些模板,可以直接导入使用
使用 夜莺+Categraf 快速建设 Redis 监控

使用 Categraf 快速建设 MySQL 监控,同时介绍夜莺模板中心

MySQL 是极为常用的数据库,本文介绍使用 Categraf 快速建设 MySQL 监控,夜莺的模板中心中已经内置了一些模板,可以直接导入使用
使用 Categraf 快速建设 MySQL 监控,同时介绍夜莺模板中心

夜莺 v7.beta12.1 发版,支持集成 Grafana

夜莺擅长处理多 Prometheus 集群的告警管理,在仪表盘这块,提供了一些内置仪表盘,但从完善度来讲,是没法和 Grafana 生态相比的,从 v7.beta12.1 版本开始,夜莺支持了内置 Grafana 仪表盘,省得大家在系统之间跳来跳去了,对于已经习惯使用 Grafana 的用户,可以考虑升级到此版本

文件句柄的监控,别等故障了再回来加监控

讲解 node-exporter 的 filefd 插件如何监控文件句柄,以及 ulimit 的一些坑

夜莺 v7.beta11 发版,优化钉钉、企微、飞书通知

夜莺之前的版本也支持钉钉、企微、飞书通知,不过整体逻辑设计的比较绕,这个版本提供了一个更直观的配置方式,顺带优化了 at 人的功能

conntrack 插件,容易遗漏但必须要监控

这是专栏第 8 篇,介绍一下 node-exporter 的 conntrack 插件。这个插件大家平时关注可能较少,但是在一些场景下,比如防火墙、NAT 网关等,需要监控 conntrack 表的使用情况。我就遇到过一次生产事故,就是因为 conntract 表满了,导致新连接无法建立,所以这个插件还是很有用的。
conntrack 插件,容易遗漏但必须要监控

手把手教程:利用 OpenTelemetry 监控微服务

针对一个完整的微服务系统,如何利用 OpenTelemetry 快速搭建一个覆盖数据采集、收集、存储、展示、分析全流程的可观测性系统,crossoverJie 撰写的教程,值得仔细阅读。
手把手教程:利用 OpenTelemetry 监控微服务

告警恢复时如何拿到恢复时的值?

Prometheus 生态的原生做法,由于阈值是放在 promql 中的,恢复时的消息中难以拿到恢复时的值,夜莺 v7.0.0.beta10 版本开始,提供了一种较为简单的内置方式,解决这个问题

夜莺监控 v7.beta8 发版,引入模板中心,修复边缘机房机器失联告警问题

这个版本建立了集成中心的框架,并且修复了边缘机房机器失联告警的Bug,建议升级

SRE 排障利器,接口请求超时试试 httpstat

A 服务调用 B 服务的 HTTP 接口,发现 B 服务返回超时,不确定是网络的问题还是 B 服务的问题,需要排查。此时 httpstat 就可以派上用场了,可以方便的看到各个通信环节的耗时,明确是 B 服务的问题还是网络侧的问题
SRE 排障利器,接口请求超时试试 httpstat

提升故障应急响应速度,Flashcat平台的1-5-10实践

阿里巴巴提出的稳定性保障 1-5-10 目标是针对提升系统可靠性的一个重要牵引指标,用于缩短故障恢复时长(MTTR),降低故障影响。业界有哪些现成的工具可用?
提升故障应急响应速度,Flashcat平台的1-5-10实践

监控GPU和InfiniBand的三种方法

监控 GPU 服务器和 InfiniBand 是确保高性能计算环境稳定运行的重要环节,是智算中心运行保障的关键能力。
监控GPU和InfiniBand的三种方法

透过 node-exporter 彻底弄懂机器监控:01. node-exporter 框架讲解

node-exporter 是 Prometheus 的官方 exporter 之一,用于监控 Linux 系统的各种指标。本文是专栏第一篇,介绍 node-exporter 的框架,后面会逐步深入 node-exporter 的原理和实现。
透过 node-exporter 彻底弄懂机器监控:01. node-exporter 框架讲解

Prometheus 聚合查询的两个方案

多个 Prometheus 集群或者多个 VictoriaMetrics 集群,在 Grafana 和夜莺里通常需要创建多个不同的数据源,这也就意味着,数据没法聚合查询,比如统一做一下 sum 之类的运算会比较麻烦,本文讲述两种 Prometheus 生态的聚合查询方案,以供参考。
Prometheus 聚合查询的两个方案

夜莺监控 v7.beta4 发版,仪表盘变量和业务组下的机器联动

仪表盘中的变量获取来源通常来自时序库,如果要查看机器相关的仪表盘数据,并做到方便的筛选,需要机器相关的指标提前打上各类标签,这个版本开始,仪表盘变量提供了一个新的筛选方式,可以和仪表盘所在业务组联动,自动获取业务组下的机器了

夜莺监控(Nightingale)上线内置指标功能

Prometheus 生态里如果要查询数据,需要编写 promql,对于普通用户来说,门槛有点高。通常有两种解法,一个是通过 AI 的手段做翻译,你用大白话跟 AI 提出你的诉求,让 AI 帮你写 promql,另一种是平台里内置现成的 promql,覆盖常用场景开箱即用。夜莺监控(Nightingale)最近上线了内置指标功能,即采用方案二,效果很棒值得尝试。
夜莺监控(Nightingale)上线内置指标功能

Prometheus 监控平台组件深度讲解

Prometheus 是一个非常流行的监控系统,作为运维或者 SRE 工程师一定要非常熟悉,即便是普通的研发,平时也要查问题,也要会使用 Prometheus。要了解一个开源项目,需要了解其架构和设计逻辑,本文会对 Prometheus 监控平台各个组件做深度讲解
Prometheus 监控平台组件深度讲解

已经有 Prometheus 了,还需要夜莺?

Prometheus 和 Nightingale 都被看做是监控系统,这俩是什么关系?相互替代还是相互协同?
已经有 Prometheus 了,还需要夜莺?

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控告警 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat