产品技术:Flashcat 统一观测平台,告警能力详解
介绍 Flashcat 统一观测平台的告警体系,涵盖 PromQL 阈值告警、机器失联告警、日志告警、智能告警、静默屏蔽与订阅分组等能力。
围绕可观测性、AI SRE、告警治理、On-call、Nightingale、Categraf、Prometheus、Kubernetes、Zabbix、用户案例和产品更新,沉淀一线工程实践、选型参考和稳定性治理方法。
介绍 Flashcat 统一观测平台的告警体系,涵盖 PromQL 阈值告警、机器失联告警、日志告警、智能告警、静默屏蔽与订阅分组等能力。
LinkedIn 有几十万机器,每天执行 15000+ 个任务,任务下发使用的是 Salt,但是做了很多改造。
LinkedIn 作为世界前十大流量的网站,为海量的求职者和雇主提供了建立连接的机会。维护如此庞大的网站的稳定运行,SRE 功不可没,LinkedIn 会如何招聘 SRE 工程师呢?
定义服务的SLI和SLO,通过全局系统呈现、处理所有服务的SLI/SLO,从而帮助SRE实践在系统中的落地。本文介绍了Facebook(Meta)在这方面的实践。原文:SLICK: Adopting SLOs for improved reliability
很多监控告警的系统都声称自己的降噪比是多少多少,各位终端用户可能不好分辨到底效果如何,本文给大家推荐一个简单粗暴高效的方式。
Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。
很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标,如果没有良好的治理,很快就会产生告警风暴的问题,如何通过一些手段达到告警降噪的效果呢?
SRE 是什么?SRE 和 DevOps 是一个东西吗?或者说 SRE 和 DevOps 的关系和异同如何?
在过去的几年里,我一直在构建和运营一个大型分布式系统:优步的支付系统。在此期间,我学到了很多关于分布式架构概念的知识,并亲眼目睹了高负载和高可用性系统不仅要构建还要运行的挑战。构建系统本身是一项有趣的工作。规划系统如何处理10x / 100x流量的增加,确保数据持久,面对硬件故障处理等等,这些都需要智慧。不管怎样,运维大型分布式系统对我来说是一次令人大开眼界的体验。
CNCF 主推的分布式链路追踪方案是 Jaeger,来自 Uber,Uber 有几千个微服务,调用关系错综复杂,Jaeger 和 M3DB 可谓 Uber 两大微服务监控利器,本讲我们就一起来看一下 Jaeger。
可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问题的能力。
本文阐述了 Netflix 的系统监控实践:自研 Telltale,成功运行并监控着 Netflix 100 多个生产应用程序的运行状况。
PromQL和MetricsQL是强大的查询语言。它们允许编写简单的查询,用于构建漂亮的时间序列数据图形。它们还允许编写复杂的查询,用于SLI / SLO计算和警报。但优化PromQL查询可能很困难。本文介绍了如何确定缓慢的PromQL查询,如何理解查询成本以及如何优化这些查询,使其执行更快并消耗更少的CPU和RAM。
SRE 是 Site Reliability Engineering,网站稳定性工程,具体怎么做这个网站稳定性工程?有没有什么方法论?有没有什么工具?白皮书来了
IM协同+监控集成+交互优化
本期新东方的技术朋友分享了一个硬件监控的方案,使用 Telegraf 做数据采集,使用 Loki 做日志存储,使用 Nightingale 做告警规则配置,玩的挺花的,我们一起来学习一下吧
我们提供在线免费培训,带大家入门,让大家成为夜莺达人、监控达人,特组建夜莺黄埔营,第1期开营在即
这一期我们邀请到的是王明松,王老板针对云原生应用实践,提出“王四条”,在业内广受认可。从19年开始,王老板所在公司的所有IDC业务就全部搬到了云上,体量还不小,SRE团队却很小,有点NetFlix的味道。这一讲,我们一起了解一下资深云上运维到底是怎么玩的。
NetFlix 的 SRE 实践是如何的?大家应该很好奇吧。NetFlix 全部采用 aws 构建他们的流媒体服务,体量巨大,他们的 SRE 文化是什么?主要干什么事情?且听本文分解。
这一期我们邀请到的是邹轶,途游游戏运维总监,邹总经常戏称自己是世界500万强企业的运维代表,可见内心中是觉得中小公司的运维建设思路和大型企业是有差别的,今天我们带着几个问题,来请邹总分享一下他的中小公司研运一体化之路。