底层的告警,上层应用应该收吗?

我是业务应用的 DEV 或 SRE,我的应用依赖了底层服务和基础设施,比如依赖基础网络、Kubernetes、MySQL、收银台服务,那这些基础服务如果出问题,我应该收告警吗?夜莺里有个订阅规则,是不是就是为此设计的?

CPU 负载高,到底应不应该告警??

CPU 负载高,到底应不应该告警?这个问题困扰了很多监控新手、老手。今天我们就来聊聊这个问题。

HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析

第三届 CCF·夜莺开源创新论坛,于 2025.7.4 在京举行,论坛上,众多可观测性领域的专家齐聚一堂,共同分享、探讨监控、可观测性、AI 相关的议题。来自“滴滴出行”的内核专家张同浩,带来了主题为《HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析》的分享,笔者在现场作为观众受益良多,现将其内容整理如下,供大家参考。
HUATUO 基于BPF的可观测能力建设及 GPU 大模型性能剖析

突破指标上限:Zepto 借助 Mimir 实现的可观测性演进

在 Zepto,我们的可观测性平台经历了从 Prometheus + Thanos 到 Grafana Mimir 的重大转变。本文将深入探讨这一演进过程中的挑战、解决方案以及我们如何实现高效的多租户指标存储。
突破指标上限:Zepto 借助 Mimir 实现的可观测性演进

使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建完整的可观测性技术栈

在本文中,我们将使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建一个完整的可观测性技术栈。我们将逐步介绍如何配置这些工具,以实现日志和指标的收集、存储和可视化。
使用 Grafana、Loki、Fluent Bit、Mimir 和 OpenTelemetry 构建完整的可观测性技术栈

掌握这些能力,工资翻倍不成问题

想要在 SRE 职业生涯中实现工资翻倍?本文将介绍 SRE 需要掌握的关键能力,从硬核技术到跨团队协作,帮助你在竞争中脱颖而出。

负载均衡100,000个WebSocket连接:HAProxy、Nginx与自定义方案的对比

在处理100,000个WebSocket连接的挑战中,我们探索了HAProxy、Nginx和自定义解决方案的性能和可靠性。本文分享了我们的经验教训和最佳实践,帮助你在高并发场景下选择合适的负载均衡器。
负载均衡100,000个WebSocket连接:HAProxy、Nginx与自定义方案的对比

从首席工程师身上学到的10条经验教训

与首席工程师共事一年,我从他身上学到了10条宝贵的经验教训。这些经验教训改变了我的编码方式、沟通方式以及做出贡献的方式。以下是我从他身上学到的10条经验教训。

Kafka 不难,只是你用得不对

Kafka 是一个强大的事件流平台,但很多人觉得它难用。本文分享一些经典的 Kafka 使用模式,帮助你更好地理解和应用 Kafka。
Kafka 不难,只是你用得不对

从 1 到 100 万用户:我真希望早点知道的架构

在产品初期,架构设计对用户增长至关重要。本文分享了从单体架构到微服务架构的演变过程,以及在扩展到百万用户时的关键经验教训。
从 1 到 100 万用户:我真希望早点知道的架构

值得收藏的 8 个 Python 库

Python 是一个强大的编程语言,本文介绍了 8 个非常实用的 Python 库,它们可以帮助开发者更高效地完成任务。
值得收藏的 8 个 Python 库

Kubernetes YAML 编写技巧和坑

YAML 是 Kubernetes 资源定义的核心,本文介绍了编写 YAML 的技巧和常见坑,包括缩进、数据类型转换等问题。
Kubernetes YAML 编写技巧和坑

夜莺 v8 正式版,来了

夜莺 v8 正式版发布,带来更多数据源的告警支持、事件 Pipeline、通知规则抽象等新特性,提升监控和告警能力。
夜莺 v8 正式版,来了

软件工程里的鲁棒性(Robustness)和弹性(Resilience)到底是什么?

鲁棒性和弹性是软件系统设计中的两个重要概念。本文将详细解释它们的定义、区别,并通过中英文对比举例,帮助读者更好地理解这两个概念。

可观测性 Observability 3.0 是个啥

可观测性 3.0 是个啥?本文介绍了可观测性 3.0 的背景、目标和实现方式,强调了成本效率和智能数据收集的重要性。
可观测性 Observability 3.0 是个啥

大厂实践:Airbnb 使用 Impulse 进行负载测试

Airbnb 内部的负载测试框架 Impulse,支持上下文感知负载生成、依赖项模拟、流量收集等功能,帮助开发者进行自助式负载测试。
大厂实践:Airbnb 使用 Impulse 进行负载测试

开源夜莺监控DIY发版时告警静默

使用夜莺监控 Pipeline 功能,轻松实现发版时告警静默,减少告警噪声,提高运维效率。
开源夜莺监控DIY发版时告警静默

5分钟学点架构模式 - 断路器模式

Circuit Breaker Pattern 是构建弹性、容错系统的重要工具。通过防止级联故障、提高系统稳定性和实现正常恢复,它在现代软件架构中发挥着至关重要的作用,尤其是在微服务环境中。无论您是构建大型企业应用程序还是较小的分布式系统,断路器都可以在故障条件下保持可靠运行方面改变游戏规则。
5分钟学点架构模式 - 断路器模式

夜莺监控V8发版,内置支持 DeepSeek 对接

夜莺监控发布了 v8.beta14 版本,新增 Postgres 告警支持和 AI Summary 处理器,增强业务监控能力。
夜莺监控V8发版,内置支持 DeepSeek 对接

夜莺监控(Nightingale)与 Grafana 深度整合

夜莺监控(Nightingale)与 Grafana 深度整合,使用 SSO 解决登录问题,并将 Grafana 内嵌到夜莺中。
夜莺监控(Nightingale)与 Grafana 深度整合

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控告警 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat