期货行业的 Oncall 实践

快猫星云 2024-08-20 08:08:08

在第二届 CCF 夜莺可观测性创新论坛上,上海某期货公司的技术专家宋庆羽,为与会同行们分享了期货行业落地 Oncall 的实践经验。

该期货公司是国内首批获得金融期货全面结算业务资格的期货公司,并在中国期货业协会分类中获得AA级评价。公司为客户提供包括商品期货经纪、金融期货经纪、资产管理等在内的全面金融服务。在全国设有 20 余家分公司和 300 余家证券 IB 营业部,业务网络辐射全国。营业收入、净利润、客户数量、客户权益总额、市场份额等经营指标连续多年位列期货行业第一梯队。

期货行业的 Oncall 实践-图1

宋庆羽在分享中提到,期货行业的运维保障,具有一定的特殊性和独特的挑战:

  1. 期货业务需根据不同的交易所的分布,存在多时段交易,分为早盘、夜盘,运维全程参与保障,要求运维人员全天需要进行值班;
  2. 期货交易的连续性、特殊性、实时性、高风险性及交易高峰时的压力等综合因素对期货信息系统的安全稳定运行提出了极高的要求;
  3. 运维人员平均每周需要处理数万个报警通知,面对庞大的数量,容易导致对报警敏感度下降,错过重要的报警,历史上也曾发生过因遗漏关键报警而引发生产事故;

因此,如何把相应的管理机制技术要求运营机制,落地到统一的监控事件响应平台,对于提升告警响应速度、降低运行维护压力,是我们提高系统的可靠性的关键抓手。

期货行业的 Oncall 实践-图2

建设思路

  1. 建平台
    • 选型成熟的、符合业界 Oncall 最佳实践的平台,以实现统一告警接入、值班排班、报警升级以及报警降噪等核心需求,全面覆盖我司的运维场景。
  2. 建制度
    • 公司层面,建立相关的制度及岗位,配备专职团队(EEC 监控岗),负责建立、完善 Oncall 制度,沉淀相关的能力,跟进 Oncall 中的遗留问题。
  3. 统一元数据
    • 与内部 CMDB 等元数据信息系统实现打通,复用相关元数据,从而有效降低平台的建设成本,提高系统的自动化、智能化水平。
  4. 持续运营
    • 通过数据量化的方式(如 MTTA、MTTR),定期量化各团队的运维 Oncall 工作,持续进行告警治理,提升 Oncall 的效率。

建平台

在平台选项层面,以下 5 个因素是我们重点考虑和关注的,首先要具备灵活的排班/值班能力和报警升级机制;其次要具备交易日历功能,以适配金融行业的业务运营特点;第三要能够对接我司体系内各种各样的告警数据源;第四具备统一、强大的告警降噪和告警抑制策略;最后平台要有丰富的元数据对接能力,能和我司 CMDB 等元数据中心打通。经过调研和测试,我们选择 Flashduty 作为我们的 Oncall 平台。

期货行业的 Oncall 实践-图3

在接入我司现有的各种监控事件时,Flashduty 提供的“邮件集成” + ”标签增强“组合功能,帮了大忙。网络分析(天旦、科莱)、OceanBase、TdSQL、沃趣 Qfusion、SmartX 平台,仅提邮件供告警方式,很难通过 webhook 的方式和第三方联动,无法实现告警 IM 化。Flashduty 能够解析发送过来的邮件内容,并对邮件标题和内容进行解析,自动提取关键信息,如告警详情、阈值、系统状态更新等,并将其转化为结构化的数据,再通过 Flashduty 的通知能力,通过不同渠道触达到运维人员。

邮件集成 + 标签增强

建机制

通过建立符合业务场景的机制,可以有效消除 Oncall 过程中的不确定因素,提升工程师的安全感,并提升效率。

Flashduty - 告警Oncall机制

统一元数据

以 CMDB 为例,在 CMDB 中已经存储了资源和资源的关系、资源与人的关系,如果在 Oncall 平台中,直接利用这些信息,可以实现更自动化的告警分发,避免了重复配置的工作,也减少了元数据不一致带来的风险。

Flashduty,支持与 CMDB 对接,从 CMDB 中获取资产依赖映射信息,并使用这些元信息,对告警进行标签增强,丰富告警的上下文,这样带来了两个好处,首先可以借助扩充后的标签,更自动化的分发告警;其次当工程师收到告警后,一目了然的看到更丰富的上下文信息,有利于快速判断故障的影响面和严重程度。

Flashduty - 从CMDB标签增强

持续运营

”没有度量就没有改进“。所有的告警都集中了统一的平台,且每个告警处理全生命周期过程中的每个节点,都被平台记录了下来。Flashduty 平台提供了多种维度的数据统计,包括工作量统计、TopK 告警统计、MTTA、MTTR 统计等等。根据这些统计数据,管理者可以科学的、有针对性的推动 Oncall 工作的优化。

Flashduty 统计报表

阅读 https://flashcat.cloud/product/flashduty 了解 Flashduty 更多信息。

宋老师微信:giggs06,想要和宋老师深度交流请自行添加其微信。

标签: Oncall
快猫星云 联系方式 快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云 联系方式
快猫星云
OpenSource
开源版
Flashcat
Flashcat