知乎:SLO 运营实践

在第二届 CCF 夜莺创新论坛上,知乎基础架构研发工程师邱天罡分享了知乎的可观测性体系实践和经验,以及如何利用 SLO 持续的度量、追踪和改进系统可用性。
知乎:SLO 运营实践

期货行业的 Oncall 实践

期货行业的运维保障,具有一定的特殊性和独特的挑战,如何把相应的管理机制、技术要求、运营机制,落地到统一的监控事件响应平台,对于提升告警响应速度、降低运行维护压力,是我们提高系统的可靠性的关键抓手。
期货行业的 Oncall 实践

使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标

如果您已经实施了跟踪但缺乏强大的指标功能怎么办? SpanConnector 是一个通过将跟踪数据转换为可操作指标来弥补这一差距的工具。这篇文章详细介绍了 SpanConnector 的工作原理,提供了有关其配置和实现的指南。
使用 SpanMetrics Connector 将 OpenTelemetry 跟踪转换为指标

解决方案:兼顾合规、便捷、可扩展,全球化的监控平台建设方案

中国企业出海,考虑到数据保护规则的要求以及跨大洲的网络传输条件受限,服务往往部署在全球多个 Region 或者多云上,这给系统的运行维护带来了一定的挑战,特别的聚焦在可观测性体系的建设上:1)需要在每个region独立部署一套可观测性工具,很多维护性和配置性的工作,需要重复搞多次;2)某些场景下,需要跨区域进行数据分析、制作报表的时候,力不从心;有的企业干脆选择把所有区域的可观测性数据,实时的汇聚到中心机房,集中维护和处理,也存在不小的隐患。
解决方案:兼顾合规、便捷、可扩展,全球化的监控平台建设方案

9k star 监控系统,100% 国产,推荐了解

夜莺监控(Nightingale)应该算是国产监控当中 star 数量最高的开源项目了,目前已经 9000 多,如果你是从事运维、运维开发、基础设施相关的工作,可以了解看看
9k star 监控系统,100% 国产,推荐了解

夜莺 v7.2.1 发版,支持查看告警事件通知记录

夜莺 v7.2.1 发版,告警详情页面支持查看告警事件通知记录

14条记录日志的最佳实践,请记好,吵架用

如何记录日志才是最佳实践,本文送你 14 条建议。关键点:确定日志记录的目标、区分日志级别、记录结构化日志、记录上下文、抽样、拥抱数据串联的力量、日志轮换、告警自动化、让团队都参与进来、不要记录一切、不要记录敏感信息、不要忽视日志对性能的影响、不要忽视日志安全、不要把日志看做银弹。
14条记录日志的最佳实践,请记好,吵架用

Kubernetes 中必备的 10 个告警处置方法

本文翻译自:https://sematext.com/blog/top-10-must-have-alerts-for-kubernetes/ 运行 Kubernetes 集群,显然不止是启动,还需要持续监控,以确保 Kubernetes 中的服务能正常运行。 不过,您不想整天盯着一堆 Kubernetes 仪表板(即便仪表板再多么美观)。您希望使用适当的警报来设置 Kubernetes 警报,对吗?
Kubernetes 中必备的 10 个告警处置方法

2024 年了,IT 运维监控系统都有哪些

时代变迁,我们一起来看看 2024 年的当下,哪些 IT 运维监控系统最值得关注。根据笔者对社区的观察来看,用户最多的几个产品分别是 Prometheus、Zabbix、Grafana、夜莺监控Nightingale。
2024 年了,IT 运维监控系统都有哪些

运维 + AI,你得先搞懂这些

在会议现场,我分享了 Zenlayer 在 AI 方向的一些实践效果,有些基础知识、选型思考等,并未在大会现场展开,这里我会在这篇文章中进行一些补充,希望能够给大家带来一些启发。更多的是提供一种思路和需要了解的实现背景的逻辑,而不是给出固定化的实现方式,也是希望能够有更多活跃思考。
运维 + AI,你得先搞懂这些

在 Kubernetes 中部署 Alertmanager

Kubernetes 是当下最火爆的容器编排平台,很多软件都逐步迁移到了 Kubernetes,对于 Kubernetes 配套的监控系统,很多公司采用的是 Prometheus,Prometheus 配套的告警事件处理工具就是 Alertmanager,本文我们来看一下如何在 Kubernetes 中部署 Alertmanager
在 Kubernetes 中部署 Alertmanager

在 Kubernetes 里部署 JMX Exporter 监控 Java 应用

本文会通过一个 Java 应用,演示 Prometheus JMX Exporter 在 Kubernetes 里的部署和配置方式。为了更好地理解 JMX Exporter,我们将使用 Spring Boot Java 应用程序并将所有 JMX 指标导出给 Prometheus。在本指南结束时,您将学习:
在 Kubernetes 里部署 JMX Exporter 监控 Java 应用

第二届CCF·夜莺开发者创新论坛成功举办,免费领取 PPT

2024.7.26 相约北京,成功举办了第二届CCF·夜莺开发者创新论坛,来自字节跳动、滴滴、小米、作业帮、知乎、Zenlayer、国泰君安期货、大搜车、快猫等众多企业的讲师分享了各自对可观测性的理解和实践经验。
第二届CCF·夜莺开发者创新论坛成功举办,免费领取 PPT

开源监控 - 夜莺项目 v7 正式发版了

经过一年的迭代,夜莺 v7 于 2024.7.26 在第二届 CCF·夜莺 开发者创新论坛上正式发版

Jenkins 高可用,到底怎么搞?

该博客涵盖了基本的 Jenkins 架构及其相关组件。如果您是 Jenkins 的初学者,它将帮助您了解 Jenkins 组件如何协同工作以及涉及的关键配置。
Jenkins 高可用,到底怎么搞?

Jenkins 架构详解 - 初学者指南

该博客涵盖了基本的 Jenkins 架构及其相关组件。如果您是 Jenkins 的初学者,它将帮助您了解 Jenkins 组件如何协同工作以及涉及的关键配置。
Jenkins 架构详解 - 初学者指南

实施 SLA、SLO 和 SLI:SRE 实用指南

探索相关术语定义以及 SLA、SLO 和 SLI 如何帮助有效监控和维护系统性能。

用实际例子讲透 Kubernetes Pod

在本指南中,我将使用实际例子讲解 Kubernetes Pod 的概念。
用实际例子讲透 Kubernetes Pod

夜莺 v7.beta14 发版,支持灵活定义告警事件标签

告警事件中一大堆标签不胜其扰?尤其是 Kubernetes 的告警事件,夜莺 v7.beta14 发版,支持灵活定义告警事件标签,用最简单的方式干掉没用的标签

一张图详解开源监控夜莺(Nightingale)的架构

本文详解夜莺的架构
一张图详解开源监控夜莺(Nightingale)的架构

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat