排查 502 Bad Gateway 的常见思路

浏览器侧看到请求超时,status code 502,即 bad gateway,可能的原因有哪些呢?本文从 SRE 视角给一些常见的排查思路

大白话浅析容器网络

容器网络最为典型的是 host network 和 bridge network,本文对二者做对比解释

FlashDuty Changelog 2024-04-22 | 标签增强、IM集成、故障列表与协作空间优化

支持对告警标签进行增强;IM集成卡片内容丰富;故障列表支持自定义展示;协作空间支持排序和收藏

网络监控:无线监控这个面板好养眼

来自社区用户写的文章,利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus,紧接上篇对交换机的监控,本篇是一个无线设备的监控的案例

你唯一需要的是“Wide Events”,而非“Metrics、Logs、Traces”

你唯一需要的是宽事件 “Wide Events”,而非三大支柱 “Metrics、Logs、Traces”。本文作者曾是 Meta 员工,个中思路值得借鉴。

手摸手教你把Ingress Nginx集成进Skywalking

本文重点介绍如何将 Ingress Nginx 集成进 Skywalking,将其作为 Skywalking 的一个节点,并且在access log 中打印TraceID,从而在出现故障的时候,可以通过日志中的TraceID快速找到调用链路,达到快速故障定位的效果。

网络监控:交换机监控新姿势

来自社区用户写的文章,在网络监控领域利用Categraf+VictoriaMetrics替换SNMP EXporter+Prometheus,使其更加友好和方便,并且性能和扩展性进一步提高

写了一个 SRE 调试工具,类似一个小木马

远程操作机器有时会比较麻烦,我写了一个工具,主要功能:1.远程执行命令 2.上传下载文件 3.打印 HTTP 请求

夜莺监控 V7 第二个 beta 版本发布,内置集成故障自愈能力,简化部署

夜莺监控 V5 和 V6 版本都支持故障自愈功能,但是均需要单独部署 ibex 模块,从 V7 beta2 版本开始,夜莺内置集成了 ibex 模块,无需单独部署 ibex,大大简化了部署流程。

SRE 必备利器:域名 DNS 探测排障工具

问题背景 访问某个 HTTP 域名接口,偶发性超时,原因可能多种多样,比如 DNS 解析问题、网络质量问题、对端服务负载问题等,在客户端没有良好埋点的情况下,排查起来比较费劲,只能挨个方向尝试,这里送大家一个小工具,可以快速采样 DNS 解析延迟,快速确认是否是 DNS 解析问题。
标签
aiops apiserver apm categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo devops dns docker ebpf elastalert elasticsearch etcd flashcat flashduty flashduty-changelog gitops golang google grok_exporter hadoop haproxy hdfs iac ilo im协同 jaeger jmx-exporter jolokia kafka kube-proxy kube-state-metrics kubelet kubernetes linkedin linux log log-monitor logs metrics metricsql mimirtool monitoring mtail mysql netflix nightingale nsenter observability oncall open-falcon openmetrics opentelemetry oracle监控 otel pingmesh postgresql product-feature prometheus prometheus告警 promql rancher salt scheduler signoz skywalking sli slo snmp snmp-exporter sre telegraf tidb traces troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 错误预算 错误预算机制 滴滴夜莺 钉钉 飞书 服务稳定性 告警风暴 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警协同 告警抑制 告警引擎 告警指派 根因定位 故障管理 计算机学会 架构师 监控 监控agent 监控设计思考 监控系统 开源 开源监控 开源夜莺 可观测性 可观测性论坛 可观测性体系建设 快猫 快猫星云 灭火图 企业微信 人工智能 日志分析 日志告警 容器 事件监控 手把手构建生产级监控系统 提问的智慧 网络可观测性 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 信创 业务监控 夜莺 夜莺黄埔营 夜莺监控 夜莺开源项目 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维监控 运维监控系统实战笔记 智能告警 自监控
开源版
Flashcat
Flashduty