快猫云眼

快猫云眼是顶级互联网公司服务稳定性保障经验和方法论的产品化落地,聚焦于服务稳定性保障场景,特别是解决故障处理过程中信息过载、故障发现慢、故障定位难的问题。

产品介绍

故障处理是服务稳定性保障的核心,感性上说故障少、处理快,服务稳定性就好,反之稳定性就差。

故障处理通常由报警或用户投诉驱动,各个系统的技术和运维人员分头排查,这种方式存在几个问题:

  • 1. 信息过载:故障的发生通常伴随着大量的报警和群消息的轰炸,导致信息过载,要从这些信息中识别出故障信息和有效的处理信息很困难;
  • 2. 故障发现慢:日常报警很多,真正的故障发生时可能只有几个一线员工靠自己的判断感知到,或等到用户反馈时才反应过来。而要把这些重要信息同步到所有相关的技术人员和leader,又需要耗费不少时间;
  • 3. 故障定位难:定位难有很多原因
    • 信息因素:信息过载就是一个最直接的原因;
    • 人的因素:参与定位处理的核心人员是否及时到位,甚至是否已经离职/转岗缺位。只依赖几个核心技术人员,外人难以介入,核心人员既要排查又要同步信息,分身乏术;
    • 协同因素:多个依赖的团队间不能有效协同,相互不了解对方的情况;
    • 方法因素:缺乏正确的故障处理方法和思路,盲目追查,不知道或忽略了优先止损的原则;

Flashcat-Eye 为故障处理构建了一个故障处理的信息中心、指挥中心、协同中心和管理中心,为故障处理和稳定性保障提供一个全局视角和最佳实践。

Flashcat-Eye包括子系统:

  • 面向故障发现和稳定性管理的 北极星系统
  • 面向加速故障定位的 灭火图日志分析事件墙 等系统,以及串联这些系统数据,加速故障定位的最佳实践;


服务场景:






产品逻辑:






产品示意:






实践数据:


  • 故障发现环节:故障出现不会被遗漏,故障发现报警实时性 <5分钟
  • 故障定位环节:定位耗时(从开始介入处理到确定止损方案),压缩耗时超过 60%

赋数据以含义

将服务作为观测对象,分为 业务信息-》IT信息(服务、模块、组件、基础设施、端)-》metrics、logging、tracing、events。
每一层每一类数据都赋予业务/服务的含义,让数据成为普遍可识别的信息。并保留故障处理所需的核心信息,屏蔽无效信息。
基于有效信息提供全局立体的业务/服务状态视角,故障处理不再只见树木不见森林。

让沉淀可持续

结合服务稳定性保障的经验和方法论,预置故障处理的最佳实践,智能识别常见的故障特征,引导用户完成故障定位的最佳路径。
日常的服务梳理不再是写到文档后束之高阁,可以直接沉淀到系统中,变成故障定位所需的信息发挥价值。
每一次服务故障都可以促进系统中信息和路径的优化,知识和技能可以进入沉淀和发挥价值的良性循环,让参与故障处理的门槛不断降低,更多的人可以参与进来。

用量化来协同

基于北极星指标量化故障,用数据说话,服务稳定性保障不再是一笔糊涂账,让保障工作在团队间形成共识。
基于北极星的量化建立故障响应流程,让系统驱动起故障处理的相关团队,并基于平台信息快速同步和有效协同;

使建设变简单

基于数据集成能力,打通主流的可观测系统,聚合变更、报警数据,和现有系统形成互补增益的关系,企业已有的基础设施无需推倒重来;
可部署在企业内部,但由快猫团队负责维护,企业只需要控制权限,并专注通过UI或API使用系统即可;