所属分类 产品动态 的文章

网络问题排查必备利器:Pingmesh

大规模网络环境下,有不同的数据中心、不同的机柜、不同的交换机,遇到问题排查起来相对比较费劲,本文介绍通过 Pingmesh 方案来解决这个问题。Pingmesh 的提出最初是来自微软,在微软内部 Pingmesh 每天会记录 24TB 数据,进行 2000 亿次 ping 探测,通过这些数据,微软可以很好的进行网络故障判定和及时的修复。

手把手教你免费用Flashduty做消息通知

全程不超过5分钟,快速上手免费使用Flashduty的消息通知能力,支持电话、微信机器人、企业微信、钉钉、飞书、短信、邮件、Slack、Zoom。

史上最简单的日志告警方案,没有之一

如果你在意生产环境的稳定性,希望自己的服务出问题时及时发现,大概率就有日志监控告警的需求,比如发现日志中有 Error 或 Exception 关键字就告警,比如通过日志统计某个服务的 95 分位延迟数据,延迟过高就告警,比如通过日志统计某个服务的 status code,出现多个 5xx 就告警,等等。日志可能存储在 ElasticSearch、Loki、ClickHouse 等系统中,告警系统的核心逻辑也比较清晰,就是根据用户配置的查询语句,周期性查询这些存储,并对查询结果做阈值判定,如果达到阈值就触发告警。比如统计 5 分钟内出现的 Error 数量,如果大于 10 就告警。

告警恢复时,如何拿到当前值

在夜莺新版本中,告警规则直接使用 promql 来配置,阈值就包含在 promql 里面,所以恢复时是无法拿到当前值的,因为恢复时监控数据不达阈值,不达阈值就不会返回数据,所以也就无法拿到当前值。Prometheus 也是类似的问题,不过可以通过 go template 中的 query 函数曲线救国,但是不够直观,学习曲线较高。今天给大家介绍两种实现思路来解决这个问题。

FlashDuty Changelog 2023-12-18 | 值班管理、服务日历、自定义操作和邮件集成

支持更高级的值班管理功能,支付服务日历、自定义操作和邮件集成
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logs metrics metricsql mimirtool monitoring mtail mysql netflix nightingale nsenter observability oncall open-falcon openmetrics opentelemetry oracle监控 otel pingmesh postgresql product-feature prometheus prometheus告警 promql rancher salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty