Prometheus 14 点实践经验分享

Prometheus 14 点最佳实践:包括 USE/RED 方法论、标签基数控制、指标命名规范、告警症状而非原因、rate 和 sum 顺序等核心经验,来自 PromCon 2017 的经典分享。
Prometheus 14 点实践经验分享

SRE解决的核心问题究竟是什么?

SRE 解决的核心问题是研发不懂运维、运维不懂研发的割裂问题。通过自动化工具和软件工程方法,SRE 确保系统增长时运维人力不会线性增加,实现运维的敏捷来支撑研发的敏捷。
SRE解决的核心问题究竟是什么?

论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

解读微软 Pingmesh 论文:一套大规模数据中心网络延迟监控系统,通过 Controller-Agent 架构实现每天 2000 亿次 ping 探测,用于网络故障判定、SLA 追踪和静默丢包检测。
论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》

如何采用 SRE 实践(当你不是 Google 时)

非 Google 公司如何采用 SRE 实践:从 SRE 团队组建、成熟度模型、SLI/SLO/SLA 实践到监控自动化,一步步落地站点可靠性工程,提升系统性能和可靠性。
如何采用 SRE 实践(当你不是 Google 时)

使用 eBPF 在云中实现网络可观测性

使用 eBPF 实现云网络可观测性:对比 Ring Buffer、Hash Map、Array 等数据结构在流量指标收集中的性能差异,分析 Skydive、Cilium、Falco 等开源工具的实现方案。
使用 eBPF 在云中实现网络可观测性

使用 OpenTelemetry 构建可观测性 01 - 介绍

OpenTelemetry 入门指南:介绍 OTel 的 API、SDK、Collector 组件,以及 Traces、Metrics、Logs 三大可观测性支柱,通过购物车示例应用演示分布式链路追踪实现。
使用 OpenTelemetry 构建可观测性 01 - 介绍

使用 OpenTelemetry 构建可观测性 02 - 埋点

OpenTelemetry 埋点详解:讲解手动埋点创建 Span、设置属性和事件,以及使用 Flask、MySQL 自动埋点零代码获取链路追踪数据,快速实现应用可观测性。
使用 OpenTelemetry 构建可观测性 02 - 埋点

使用 OpenTelemetry 构建可观测性 03 - 导出

OpenTelemetry SDK 导出详解:介绍 TracerProvider 链路追踪生产者、Resource 资源元数据、OTLP Exporter 导出器的配置,实现遥测数据从应用到收集器的传输。
使用 OpenTelemetry 构建可观测性 03 - 导出

使用 OpenTelemetry 构建可观测性 04 - 收集器

OpenTelemetry Collector 详解:介绍接收器、处理器、导出器组件,DaemonSet 和 Sidecar 两种 Kubernetes 部署方式,以及使用 ocb 工具构建自定义收集器分发版。
使用 OpenTelemetry 构建可观测性 04 - 收集器

使用 OpenTelemetry 构建可观测性 05 - 传播和行李(Propagation & Baggage)

OpenTelemetry 传播与行李机制详解:通过 Propagation 传递 TraceID 和 SpanID 实现分布式链路追踪,使用 Baggage 在微服务间传递自定义上下文数据。
使用 OpenTelemetry 构建可观测性 05 - 传播和行李(Propagation & Baggage)

使用 OpenTelemetry 构建可观测性 06 - 生态系统

OpenTelemetry 生态系统概览:作为 CNCF 第二活跃项目,介绍 OTel 官网、Slack 社区、GitHub 仓库组织结构以及 Registry 注册表,帮助开发者快速入门并参与社区。
使用 OpenTelemetry 构建可观测性 06 - 生态系统

我写了一个 vscode 插件,方便在 hugo markdown 中输入 ISO 8601 格式的时间

VSCode 插件 insertisodate:一键插入 ISO 8601 格式时间,专为 Hugo 博客写作设计,自动填充 date 和 lastmod 字段,提升 SEO 友好度和写作效率。
我写了一个 vscode 插件,方便在 hugo markdown 中输入 ISO 8601 格式的时间

Prometheus 进阶函数 info 来了,苦 join 久已啊

详解 Prometheus 实验性 info 函数,告别复杂的 group_left join 语法实现标签 Enrichment。info 函数简化 PromQL 写法,并解决标签变化导致的 Churn Problem 和 many-to-many 匹配问题。

记一次被社区用户逼着修Bug经历

记录 Categraf http_response 插件报错 TLS handshake failure 的排查过程。分析 IPv4/IPv6 入口 TLS 配置差异、Go 1.24 默认加密套件变更导致的握手失败,提供 tls_cipher_suites 配置方案解决兼容性问题。
记一次被社区用户逼着修Bug经历

排查 Flashduty monitor 监控告警 - 数据不符合预期的场景

本文介绍如何排查 Flashduty monitor 监控告警时,发现数据不符合预期的场景,帮助用户定位和解决问题。

夜莺监控:机器告警配置详解

本文详细介绍了夜莺监控(Nightingale)中机器告警配置的多种方式,包括机器存活监控和普通指标监控,帮助用户更好地管理和监控其基础设施。
夜莺监控:机器告警配置详解

夜莺监控常见问题 FAQ 一览​

本文汇总了夜莺监控(Nightingale)在使用过程中常见的问题及其解决方案,帮助用户更好地理解和使用夜莺监控,实现高效的多数据源告警管理。
夜莺监控常见问题 FAQ 一览​

SRE 踩坑记:JVM 暂停竟然是因为日志

在高性能计算领域,我们习惯于在代码、算法或基础设施中寻找瓶颈。但有时,问题可能出现在意想不到的地方,比如 JVM 的垃圾回收日志记录。本文讲述了一个因日志写入导致的 JVM 停顿问题及其解决方案。

从症状到解决方案:排查 Java 内存泄漏与内存溢出错误

本文介绍了如何识别和排查 Java 应用中的内存泄漏和内存溢出错误,提供了实用的技巧和工具,帮助工程师快速定位并解决内存相关问题。
从症状到解决方案:排查 Java 内存泄漏与内存溢出错误

给首次担任专家级 SRE(网站可靠性工程师)的几点建议

本文分享了首次担任专家级 SRE 的一些建议,涵盖了思维模式的转变、团队协作、技术领导力等方面,帮助新晋专家级 SRE 更好地适应角色并推动系统可靠性。
给首次担任专家级 SRE(网站可靠性工程师)的几点建议

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag filelog flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia jvm k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis rum salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre syslog telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控告警 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 面试题 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志采集 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 尾采样 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat
Flashduty
Flashduty