LinkedIn:扩展 Salt 以解决大规模机器命令执行需求

LinkedIn 有几十万机器,每天执行 15000+ 个任务,任务下发使用的是 Salt,但是做了很多改造。
LinkedIn:扩展 Salt 以解决大规模机器命令执行需求

面试 LinkedIn SRE 是一种怎样的体验?

LinkedIn 作为世界前十大流量的网站,为海量的求职者和雇主提供了建立连接的机会。维护如此庞大的网站的稳定运行,SRE 功不可没,LinkedIn 会如何招聘 SRE 工程师呢?
面试 LinkedIn SRE 是一种怎样的体验?

SLICK: Facebook基于SLO的可靠性保障实践

定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。原文:SLICK: Adopting SLOs for improved reliability
SLICK: Facebook基于SLO的可靠性保障实践

最佳实践:告警通知时如何做到最佳降噪效果

很多监控告警的系统都声称自己的降噪比是多少多少,各位终端用户可能不好分辨到底效果如何,本文给大家推荐一个简单粗暴高效的方式。
最佳实践:告警通知时如何做到最佳降噪效果

SRE们,请不要小看了 排班OnCall

Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。
SRE们,请不要小看了 排班OnCall

最佳实践:治理告警风暴,告警降噪的一些典型手段

很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标,如果没有良好的治理,很快就会产生告警风暴的问题,如何通过一些手段达到告警降噪的效果呢?
最佳实践:治理告警风暴,告警降噪的一些典型手段

SRE 简介,和 DevOps 的关系和异同

SRE 是什么?SRE 和 DevOps 是一个东西吗?或者说 SRE 和 DevOps 的关系和异同如何?
SRE 简介,和 DevOps 的关系和异同

Uber实践:运维大型分布式系统的一些心得

在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载和高可用性系统不仅要构建还要运行的挑战。构建系统本身是一项有趣的工作。规划系统如何处理10x / 100x流量的增加,确保数据持久,面对硬件故障处理等等,这些都需要智慧。不管怎样,运维大型分布式系统对我来说是一次令人大开眼界的体验。
Uber实践:运维大型分布式系统的一些心得

微服务监控 - Jaeger 简介

CNCF 主推的分布式链路追踪方案是 Jaeger,来自 Uber,Uber 有几千个微服务,调用关系错综复杂,Jaeger 和 M3DB 可谓 Uber 两大微服务监控利器,本讲我们就一起来看一下 Jaeger。
微服务监控 - Jaeger 简介

从监控系统到可观测平台的演进之路

可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问题的能力。
从监控系统到可观测平台的演进之路

顶级公司Netflix是如何做监控的?

本文阐述了 Netflix 的系统监控实践:自研 Telltale,成功运行并监控着 Netflix 100 多个生产应用程序的运行状况。
顶级公司Netflix是如何做监控的?

如何优化 PromQL 和 MetricsQL 查询

PromQL和MetricsQL是强大的查询语言。它们允许编写简单的查询,用于构建漂亮的时间序列数据图形。它们还允许编写复杂的查询,用于SLI / SLO计算和警报。但优化PromQL查询可能很困难。本文介绍了如何确定缓慢的PromQL查询,如何理解查询成本以及如何优化这些查询,使其执行更快并消耗更少的CPU和RAM。
如何优化 PromQL 和 MetricsQL 查询

稳定性体系建设白皮书

SRE 是 Site Reliability Engineering,网站稳定性工程,具体怎么做这个网站稳定性工程?有没有什么方法论?有没有什么工具?白皮书来了
稳定性体系建设白皮书

FlashDuty Changelog 2023-04-06

IM协同+监控集成+交互优化
FlashDuty Changelog 2023-04-06

新东方:使用 Telegraf + Loki + Nightingale 实现硬件监控

本期新东方的技术朋友分享了一个硬件监控的方案,使用 Telegraf 做数据采集,使用 Loki 做日志存储,使用 Nightingale 做告警规则配置,玩的挺花的,我们一起来学习一下吧
新东方:使用 Telegraf + Loki + Nightingale 实现硬件监控

夜莺黄埔营第1期招募令

我们提供在线免费培训,带大家入门,让大家成为夜莺达人、监控达人,特组建夜莺黄埔营,第1期开营在即
夜莺黄埔营第1期招募令

运维百家讲坛第7期:王明松 - 自我革命的“王四条”是怎样练成的

这一期我们邀请到的是王明松,王老板针对云原生应用实践,提出“王四条”,在业内广受认可。从19年开始,王老板所在公司的所有IDC业务就全部搬到了云上,体量还不小,SRE团队却很小,有点NetFlix的味道。这一讲,我们一起了解一下资深云上运维到底是怎么玩的。
运维百家讲坛第7期:王明松 - 自我革命的“王四条”是怎样练成的

Nginx stub status采集

本文讲解如何从头开始编译http_stub_status_module模块,并使用input.nginx插件采集指标。
Nginx stub status采集

Nginx upstream采集

本文讲解如何添加nginx_upstream_check模块,并使用input.nginx_upstream_check插件采集指标。
Nginx upstream采集

Nginx vts采集

本文讲解如何添加vts模块,并使用input.prometheus插件采集指标。
Nginx vts采集

标签
ai aiops alertmanager apache apiserver apm azure categraf catpaw ccf chatgpt chatops clickhouse controller-manager coredump cprobe cslo datadog devops dns docker ebpf elasitcsearch elastalert elasticsearch etcd etl featureflag flashcat flashcat产品 flashduty flashduty-changelog fluentbit fluentd gdpr gitops golang google grok_exporter hadoop hana haproxy hdfs helm httpstat iac ibex ilo im协同 incident it监控 jaeger jenkins jmx-exporter jolokia k8s kafka kibana kube-proxy kube-state-metrics kubelet kubernetes linkedin linux linux监控 llm log log-monitor logging logs loki metrics metricshub metricsql mimirtool mongodb mongodb监控 monitoring mtail mysql mysql调优 mysql监控 netflix nightingale node-exporter nsenter observability on-call oncall open-falcon open-telemetry openmetrics opensearch opentelementry opentelemetry oracle监控 otel pagerduty pingmesh postgresql procstat product-feature prometheus prometheus告警 promql promxy rancher redis salt scheduler siglens signoz skywalking sla sli slo snmp snmp-exporter spanconnector sre telegraf tidb traces tracing troubleshooting uber ulimit vector victorialogs victoriametrics zabbix 北极星 不可变基础设施 出海 出海业务 创业 错误预算 错误预算机制 大厂实践 大模型 大模型智能oncall 滴滴夜莺 钉钉 钉钉通知 飞书 飞书通知 服务稳定性 告警 告警oncall 告警丰富 告警风暴 告警规则 告警降噪 告警聚合 告警排班 告警认领 告警升级 告警事件 告警收敛 告警数据孤岛 告警通知 告警响应 告警协同 告警抑制 告警引擎 告警值班 告警指派 告警自愈 根因定位 故障 故障复盘 故障管理 计算机学会 架构师 监控 监控agent 监控方法论 监控工具 监控设计思考 监控系统 监控系统合规 进程监控 开源 开源监控 开源商业化 开源夜莺 可观测平台 可观测性 可观测性论坛 可观测性体系建设 客户案例 快猫 快猫星云 连锁门店 链路追踪 埋点监控 灭火图 普罗米修斯 企微通知 企业微信 人工智能 日志 日志存储 日志分析 日志告警 日志监控 容器 熔断 时序库 时序数据库 事件监控 手把手构建生产级监控系统 他山之石 提问的智慧 通知规则 统一监控 网络可观测性 网络排障 稳定性保障 稳定性方法论 稳定性体系 稳定性体系建设 系统架构设计 信创 业务监控 夜莺 夜莺v8 夜莺短信告警 夜莺黄埔营 夜莺监控 夜莺开发者创新论坛 夜莺开源项目 夜莺业务组 夜莺用户案例 医药健康 仪表盘 用户案例 云厂商 云原生监控 云原生组织 运维 运维百家讲坛 运维告警 运维监控 运维监控系统 运维监控系统实战笔记 智能oncall 智能告警 自监控 最佳实践
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat