理想的监控系统到底是什么样的?
笔者从 14 年开始做监控,到现在接近 10 年,认知在持续迭代,最近又有一些新想法,跟大家分享一下我眼中的理想的监控系统到底是什么样的
汇总 Flashcat 博客中归属于 Flashcat方法 分类的文章,方便按内容类型连续阅读产品实践、客户案例和可观测性方法。
笔者从 14 年开始做监控,到现在接近 10 年,认知在持续迭代,最近又有一些新想法,跟大家分享一下我眼中的理想的监控系统到底是什么样的
什么是可观测性?相比传统监控,可观测性是“新瓶装旧酒”吗?他们有哪些区别和联系,从传统监控到可观测性,Gap 到底有多大?
稳定性保障,是一切技术工作的出发点和落脚点,也是 IT 工作最核心的价值体现,当然也是技术人员最容易“翻车”的阴沟。8个稳定性保障锦囊,分享给各位技术人员择机使用。
如果您之前对可观测性重要性,益处,以及组成不甚了解,本文是一个合适的指南手册
可观测性不能只关注 metrics、logging、tracing 这些 raw data,还要能够从数据中提取特征,进而推导出观点,最终辅助洞察定位故障。能够辅助定位故障才是可观测性的核心目标,构建数据只是建设底座,离目标还差的很远,千万不要觉得有了数据,就完活了。
什么是可观测性?从传统监控到可观测性,Gap 到底有多大?构建和完善可观测性体系,有哪些最佳实践,应该从哪些维度入手和进阶?
日志,指标和分布式链路追踪这三个可观测性的传统支柱,已经是过时的,过于关注数据采集和底层数据格式,而不去关注结果(我们建设可观测性的初心和目标),这个做法实在是滑天下之大稽
可观测性(Observability)是一种软件开发和系统构建的哲学,是对系统内部状态及行为的度量和推断能力,通常包括日志、指标、链路追踪等多个度量维度。也就是说,在软件开发和运维领域中,可观测性是指对于一个复杂的系统,能够通过监控、日志、指标、追踪等手段,快速地发现、诊断、解决问题的能力。
SRE 是 Site Reliability Engineering,网站稳定性工程,具体怎么做这个网站稳定性工程?有没有什么方法论?有没有什么工具?白皮书来了
优秀的运维和架构师应该是怎样的?运维能给人工智能时代带来价值吗?
Flashcat的设计初衷是实现一个从数据到平台到场景真正一体化的统一监控,成为服务稳定性保障,特别是故障处理的真帮手。
稳定性体系建设是一个巨大的话题,实际上不止是运维人员关注,整个技术体系都非常关注,这个话题慢慢聊,今天我们先着眼在运维视角,看看如何构建稳定性体系。
服务一次次挂掉,技术团队一次次应急响应、一次次复盘,我们从中学到了什么?
稳定性一号位,或者说稳定性负责人,需要有哪些职责:承担责任,制定目标并拆解量化,确定预算,建立技术保障体系
SLO落地难,有哪些落地方法,Flashcat北极星、灭火图等产品可以帮助你
服务稳定性保障,如何站在用户视角看问题,大家有哪些误解,本文从服务可用性、故障、根本原因、根因定位、业务监控多个方面来讲解
云原生时代,监控系统需要具备哪些能力和特点,云原生监控选型要注意这些点
通过几个方面来建设稳定性体系:建立全面的度量体系、重点加强信息协同/让数据说人话、特定场景下的智能辅助决策
如何建立云原生组织,有8个要素分享给大家,分别是:平台团队、SRE团队、应用开发团队、Business KPIs、SLOs、DevOps、GitOps、IaC