产品技术:网络问题排查必备利器——Pingmesh

大规模网络环境下,有不同的数据中心、不同的机柜、不同的交换机,遇到问题排查起来相对比较费劲,本文介绍通过 Pingmesh 方案来解决这个问题。Pingmesh 的提出最初是来自微软,在微软内部 Pingmesh 每天会记录 24TB 数据,进行 2000 亿次 ping 探测,通过这些数据,微软可以很好的进行网络故障判定和及时的修复。
产品技术:网络问题排查必备利器——Pingmesh

手把手教你免费用Flashduty做消息通知

全程不超过5分钟,快速上手免费使用Flashduty的消息通知能力,支持电话、微信机器人、企业微信、钉钉、飞书、短信、邮件、Slack、Zoom。
手把手教你免费用Flashduty做消息通知

2 分钟,了解 4 个极为有用的 MetricsQL 函数

夜莺社区的朋友如果问时序库的选型,我一般都会推荐 VictoriaMetrics,除了其性能、稳定性、集群扩展能力之外,VictoriaMetrics 还扩展了 PromQL,提供了 MetricsQL,即增强了 PromQL 的能力。比如下面介绍的场景,就很适合用 MetricsQL 来解决。
2 分钟,了解 4 个极为有用的 MetricsQL 函数

如何排查常规软件问题 - 面向 Linux 初级用户的教程

笔者从 14 年做开源软件以来,接触了众多 Linux 新手用户,这里我为这类用户总结了一些常见的问题排查方法,希望能帮助到大家。如果你已经工作多年,对于下面提到的思路和方法应该非常熟悉,如果对某一条感到陌生,咳咳,真的不太应该,赶紧补补吧。
如何排查常规软件问题 - 面向 Linux 初级用户的教程

史上最简单的日志告警方案,没有之一

如果你在意生产环境的稳定性,希望自己的服务出问题时及时发现,大概率就有日志监控告警的需求,比如发现日志中有 Error 或 Exception 关键字就告警,比如通过日志统计某个服务的 95 分位延迟数据,延迟过高就告警,比如通过日志统计某个服务的 status code,出现多个 5xx 就告警,等等。日志可能存储在 ElasticSearch、Loki、ClickHouse 等系统中,告警系统的核心逻辑也比较清晰,就是根据用户配置的查询语句,周期性查询这些存储,并对查询结果做阈值判定,如果达到阈值就触发告警。比如统计 5 分钟内出现的 Error 数量,如果大于 10 就告警。
史上最简单的日志告警方案,没有之一

告警恢复时,如何拿到当前值

在夜莺新版本中,告警规则直接使用 promql 来配置,阈值就包含在 promql 里面,所以恢复时是无法拿到当前值的,因为恢复时监控数据不达阈值,不达阈值就不会返回数据,所以也就无法拿到当前值。Prometheus 也是类似的问题,不过可以通过 go template 中的 query 函数曲线救国,但是不够直观,学习曲线较高。今天给大家介绍两种实现思路来解决这个问题。
告警恢复时,如何拿到当前值

漫画图解 Go 并发编程之:Channel

使用漫画的方式虚拟一个咖啡馆的点餐场景,来讲解 Go Channel 的原理和使用。
漫画图解 Go 并发编程之:Channel

专栏:数据库、中间件的监控一网打尽

这是《手把手构建生产级监控系统》专栏第二篇,演示如何快速监控常见的数据库、中间件,如何配置仪表盘以及告警规则。方便各位看官能够快速上手,本文重视实操,至于具体每个中间件的关键指标我们留待后面专栏介绍
专栏:数据库、中间件的监控一网打尽

专栏:手把手构建生产级监控系统

笔者去年在极客时间发布了一个专栏《运维监控系统实战笔记》,很多朋友借此梳理了较为体系化的运维监控系统知识,但是限于专栏篇幅,有些手把手实操类的内容没有办法展开,另外时隔一年,监控系统的技术栈也有了一些变化,所以笔者决定在这里把这些内容补充完整。
专栏:手把手构建生产级监控系统

夜莺监控发布 v6.7 版本,推送部分商业版功能

熟悉夜莺的小伙伴都知道夜莺分为开源版、专业版、企业版,三个版本良性发展。近期夜莺团队发布了 v6.7 版本,把机器Metadata管理功能推送到了开源版。

最佳实践:灭火图 - 故障发现和定位的入口

灭火图是发现服务健康与否的入口,也是整个故障定位信息系统的核心,从灭火图开始,可以下钻到具体的接口/基础设施/链路分析数据/问题特征/相关事件等关键维度,引导技术团队高效、精准的定位故障。
最佳实践:灭火图 - 故障发现和定位的入口

Google SRE 的 on-call 方法和工具

我们熟知的 Kubernetes 是 Google 内部容器编排工具 Borg 的开源实现,Prometheus 是 Google 内部监控工具 Borgmon 的开源版本。那么 Google 内部的 OnCall 工具 Outalator 有没有相关的产品呢?
Google SRE 的 on-call 方法和工具

快速监控 Oracle 数据库

Oracle 数据库在行业内应用广泛,通常存放的非常重要的数据,监控是必不可少的,本文使用 Cprobe 采集 Oracle 监控数据,极致简单,分享给大家
快速监控 Oracle 数据库

利用夜莺开源版对H3C无线设备监控

来自夜莺社区用户写的文章,前文说明了利用夜莺开源版如何监控H3C交换机的,算是抛砖引玉;秉持着授人与鱼不如授人与渔,今天我们就来具体谈谈夜莺SNMP插件的使用,能自己自定义自身需求的监控指标才是真正学会如何利用夜莺去监控SNMP协议设备,今天将以H3C无线作为案例,具体讲解下SNMP插件配置。
利用夜莺开源版对H3C无线设备监控

Flashduty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成

支持更高级的值班管理功能,支付服务日历、自定义操作和邮件集成
Flashduty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成

理想的监控系统到底是什么样的?

笔者从 14 年开始做监控,到现在接近 10 年,认知在持续迭代,最近又有一些新想法,跟大家分享一下我眼中的理想的监控系统到底是什么样的
理想的监控系统到底是什么样的?

可观测性与传统监控的区别和联系

什么是可观测性?相比传统监控,可观测性是“新瓶装旧酒”吗?他们有哪些区别和联系,从传统监控到可观测性,Gap 到底有多大?
可观测性与传统监控的区别和联系

大一统的监控探针采集器 cprobe

监控数据采集领域,有各种 agent 各种 exporter,缺乏一个真正好用的产品设计,这个需求到底应该怎么做?cprobe 给你答案。
大一统的监控探针采集器 cprobe

TiDB:多集群告警监控-中章-融合多集群 Grafana

随着公司XC改造步伐的前进,越来越多的业务选择 TiDB,由于各个业务之间需要物理隔离,避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消耗巨大的精力。上篇介绍了监控工具的安装,以及业务组如何规范的设置。本章着重介绍如何将多套集群 Grafana 数据统一管理。
TiDB:多集群告警监控-中章-融合多集群 Grafana

TiDB:多集群告警监控-初章-监控融合、自动告警处理

随着公司XC改造步伐的前进,越来越多的业务选择 TiDB,由于各个业务之间需要物理隔离,避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消耗巨大的精力。
TiDB:多集群告警监控-初章-监控融合、自动告警处理

标签
ai aiagent aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag filelog flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia jvm k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis rum salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre syslog telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控告警 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 面试题 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志采集 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 尾采样 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat
Flashduty
Flashduty