微服务监控 - Jaeger 简介

CNCF 主推的分布式链路追踪方案是 Jaeger,来自 Uber,Uber 有几千个微服务,调用关系错综复杂,Jaeger 和 M3DB 可谓 Uber 两大微服务监控利器,本讲我们就一起来看一下 Jaeger。
微服务监控 - Jaeger 简介

从监控系统到可观测平台的演进之路

可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问题的能力。
从监控系统到可观测平台的演进之路

顶级公司Netflix是如何做监控的?

本文阐述了 Netflix 的系统监控实践:自研 Telltale,成功运行并监控着 Netflix 100 多个生产应用程序的运行状况。
顶级公司Netflix是如何做监控的?

如何优化 PromQL 和 MetricsQL 查询

PromQL和MetricsQL是强大的查询语言。它们允许编写简单的查询,用于构建漂亮的时间序列数据图形。它们还允许编写复杂的查询,用于SLI / SLO计算和警报。但优化PromQL查询可能很困难。本文介绍了如何确定缓慢的PromQL查询,如何理解查询成本以及如何优化这些查询,使其执行更快并消耗更少的CPU和RAM。
如何优化 PromQL 和 MetricsQL 查询

稳定性体系建设白皮书

SRE 是 Site Reliability Engineering,网站稳定性工程,具体怎么做这个网站稳定性工程?有没有什么方法论?有没有什么工具?白皮书来了
稳定性体系建设白皮书

Flashduty Changelog 2023-04-06

IM协同+监控集成+交互优化
Flashduty Changelog 2023-04-06

新东方:使用 Telegraf + Loki + Nightingale 实现硬件监控

本期新东方的技术朋友分享了一个硬件监控的方案,使用 Telegraf 做数据采集,使用 Loki 做日志存储,使用 Nightingale 做告警规则配置,玩的挺花的,我们一起来学习一下吧
新东方:使用 Telegraf + Loki + Nightingale 实现硬件监控

夜莺黄埔营第1期招募令

我们提供在线免费培训,带大家入门,让大家成为夜莺达人、监控达人,特组建夜莺黄埔营,第1期开营在即
夜莺黄埔营第1期招募令

运维百家讲坛第7期:王明松 - 自我革命的“王四条”是怎样练成的

这一期我们邀请到的是王明松,王老板针对云原生应用实践,提出“王四条”,在业内广受认可。从19年开始,王老板所在公司的所有IDC业务就全部搬到了云上,体量还不小,SRE团队却很小,有点NetFlix的味道。这一讲,我们一起了解一下资深云上运维到底是怎么玩的。
运维百家讲坛第7期:王明松 - 自我革命的“王四条”是怎样练成的

Netflix SRE 实践概述

NetFlix 的 SRE 实践是如何的?大家应该很好奇吧。NetFlix 全部采用 aws 构建他们的流媒体服务,体量巨大,他们的 SRE 文化是什么?主要干什么事情?且听本文分解。
Netflix SRE 实践概述

运维百家讲坛第6期:途游邹轶 - 中小公司的运维怎么做?

这一期我们邀请到的是邹轶,途游游戏运维总监,邹总经常戏称自己是世界500万强企业的运维代表,可见内心中是觉得中小公司的运维建设思路和大型企业是有差别的,今天我们带着几个问题,来请邹总分享一下他的中小公司研运一体化之路。
运维百家讲坛第6期:途游邹轶 - 中小公司的运维怎么做?

夜莺V6.X架构介绍

Nightingale 夜莺 6.x 版本架构上做了调整,本文从中心部署架构和下沉部署架构两个常见场景进行介绍。
夜莺V6.X架构介绍

SRE接手新业务首要工作:运维准入测试

如果接手的是一坨随时可能散架的破车,就算SRE有通天之能,也很难通过运维手段给变成布加迪威龙。接手的时候一定要做好准入测试!很多公司会有运维准入规范,但是通常缺少运维准入测试,导致了后续诸多背锅问题。
SRE接手新业务首要工作:运维准入测试

如何做好今天的运维

优秀的运维和架构师应该是怎样的?运维能给人工智能时代带来价值吗?
如何做好今天的运维

如何在 VictoriaMetrics 中删除或修改指标

在 VictoriaMetrics 中,有些指标不想要了,如何删除?或者有些数据不对,如何更新?
如何在 VictoriaMetrics 中删除或修改指标

阮一峰的网络日志:运维的未来是平台工程

转载自阮一峰的网络日志。老规矩,兼听则明,偏信则暗,听百家之言,自我决策。
阮一峰的网络日志:运维的未来是平台工程

使用AI写篇文章:SNMP Exporter 的使用样例和注意事项

chatGPT真的是太火爆了,Notion跟进,现在Office也跟进,对文字工作者是非常大的冲击,下面这个文章,《SNMP Exporter的使用样例和注意事项》完全由 NotionAI生成,有点牛逼啊
使用AI写篇文章:SNMP Exporter 的使用样例和注意事项

夜莺?Nightingale?快猫?Flashcat?开源?商业化?都是啥?

有些朋友不知道夜莺和快猫的关系,不知道开源版本和收费版本的关系,这个文章来解答一下这些常见问题。
夜莺?Nightingale?快猫?Flashcat?开源?商业化?都是啥?

告警聚合降噪、告警升级、告警认领、告警排班、告警协同,一网打尽

本文介绍如何利用Flashduty完成告警聚合降噪、告警升级、告警认领、告警排班、告警协同等需求。每个公司大概率都同时使用多个监控系统,对告警事件做统一处理,是一个很强的需求,本文为大家讲解如何落地实践。
告警聚合降噪、告警升级、告警认领、告警排班、告警协同,一网打尽

产品技术:基于方法论实现的Flashcat监控有哪些设计上的理念和方法?

Flashcat的设计初衷是实现一个从数据到平台到场景真正一体化的统一监控,成为服务稳定性保障,特别是故障处理的真帮手。
产品技术:基于方法论实现的Flashcat监控有哪些设计上的理念和方法?

标签
ai aiagent aiops alertmanager apache apiserver apm azure categraf catpaw ccf cdn chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl faq featureflag filelog flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google gpu grafana grok_exporter hadoop hana haproxy hdfs helm httpstat huatuo iac ibex ilo im协同 incident it监控 jaeger jenkins jmx jmx-exporter jolokia jvm k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki mcp-server metrics metricshub metricsql mimir mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis rum salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre syslog telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 分布式追踪 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控告警 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 面试题 灭火图 普罗米修斯 企微通知 企业微信 前端监控 人工智能 日志 日志采集 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 尾采样 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云