所属分类 Flashcat方法 的文章

可观测性与监控的区别和联系

什么是可观测性,从传统监控到可观测性,Gap 到底有多大?

稳定性保障8个锦囊,建议收藏!

稳定性保障,是一切技术工作的出发点和落脚点,也是 IT 工作最核心的价值体现,当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊,分享给各位技术人员择机使用。

可观测性是什么? 入门指南

如果您之前对可观测性重要性,益处,以及组成不甚了解,本文是一个合适的指南手册

面向故障处理的可观测性体系建设

可观测性不能只关注 metrics、logging、tracing 这些 raw data,还要能够从数据中提取特征,进而推导出观点,最终辅助洞察定位故障。能够辅助定位故障才是可观测性的核心目标,构建数据只是建设底座,离目标还差的很远,千万不要觉得有了数据,就完活了。

Flashcat 系列白皮书,免费收藏

什么是可观测性?从传统监控到可观测性,Gap 到底有多大?构建和完善可观测性体系,有哪些最佳实践,应该从哪些维度入手和进阶?

可观测性三支柱?远不止此!

日志,指标和分布式链路追踪这三个可观测性的传统支柱,已经是过时的,过于关注数据采集和底层数据格式,而不去关注结果(我们建设可观测性的初心和目标),这个做法实在是滑天下之大稽

如何采用 SRE 实践(当你不是 Google 时)

Site reliability engineering (SRE) 并不是一个新的术语或实践。在把 SRE 定义为一个职位名称之前,把软件工程技能和原则应用到运维领域早就已经付诸实践了。在组织层面落地 SRE,用更加积极主动的方式来构建和维护软件,可以推动一些方面的长期成功,比如提升运维效率、数据驱动的路线规划、整体稳定性达成。正是由于 SRE 的广泛采用,我们才得以获得这些优势。

告警通知时如何做到最佳降噪效果

很多监控告警的系统都声称自己的降噪比是多少多少,各位终端用户可能不好分辨到底效果如何,本文给大家推荐一个简单粗暴高效的方式。

SRE们,请不要小看了 排班OnCall

Google SRE 的书中提到了一个点,说要能够把 SRE 的工作落地好,实践好,做好 排班 OnCall 是其中关键一环。很多人不理解个中道理,本文会尝试解释一下底层的逻辑。

治理告警风暴,告警降噪的一些典型手段

很多公司希望提升服务稳定性,而上线了各类监控系统,指标的、链路的、日志的,而且只是指标层面可能就会有多个监控系统,这么多监控系统、这么多监控目标,如果没有良好的治理,很快就会产生告警风暴的问题,如何通过一些手段达到告警降噪的效果呢?

从监控系统到可观测平台的演进之路

可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问题的能力。

稳定性体系建设白皮书

SRE 是 Site Reliability Engineering,网站稳定性工程,具体怎么做这个网站稳定性工程?有没有什么方法论?有没有什么工具?白皮书来了

如何做好今天的运维

优秀的运维和架构师应该是怎样的?运维能给人工智能时代带来价值吗?

基于方法论实现的Flashcat监控有哪些设计上的理念和方法?

Flashcat的设计初衷是实现一个从数据到平台到场景真正一体化的统一监控,成为服务稳定性保障,特别是故障处理的真帮手。

科普篇:运维稳定性体系建设

稳定性体系建设是一个巨大的话题,实际上不止是运维人员关注,整个技术体系都非常关注,这个话题慢慢聊,今天我们先着眼在运维视角,看看如何构建稳定性体系。

服务挂了,学费交了,掌握这6点就值了

服务一次次挂掉,技术团队一次次应急响应、一次次复盘,我们从中学到了什么?

稳定性保障一号位的进击之旅

稳定性一号位,或者说稳定性负责人,需要有哪些职责:承担责任,制定目标并拆解量化,确定预算,建立技术保障体系

SLO新解,一种行之有效的故障处理方法

SLO落地难,有哪些落地方法,Flashcat北极星、灭火图等产品可以帮助你

服务稳定性保障的五大误解

服务稳定性保障,如何站在用户视角看问题,大家有哪些误解,本文从服务可用性、故障、根本原因、根因定位、业务监控多个方面来讲解

建立云原生组织的8个要素

如何建立云原生组织,有8个要素分享给大家,分别是:平台团队、SRE团队、应用开发团队、Business KPIs、SLOs、DevOps、GitOps、IaC

是时候该从用户视角去看待系统稳定性问题了

通过几个方面来建设稳定性体系:建立全面的度量体系、重点加强信息协同/让数据说人话、特定场景下的智能辅助决策

云原生监控的十大特点和趋势

云原生时代,监控系统需要具备哪些能力和特点,云原生监控选型要注意这些点
标签
开源版
Flashcat
Flashduty