论文阅读 《Pingmesh: A Large-Scale System for Data Center Network Latency Measurement and Analysis》
解读微软 Pingmesh 论文:一套大规模数据中心网络延迟监控系统,通过 Controller-Agent 架构实现每天 2000 亿次 ping 探测,用于网络故障判定、SLA 追踪和静默丢包检测。
汇总 Flashcat 博客中与 Pingmesh 相关的文章,方便按主题连续阅读实践、案例、选型和产品更新。
解读微软 Pingmesh 论文:一套大规模数据中心网络延迟监控系统,通过 Controller-Agent 架构实现每天 2000 亿次 ping 探测,用于网络故障判定、SLA 追踪和静默丢包检测。
大规模网络环境下,有不同的数据中心、不同的机柜、不同的交换机,遇到问题排查起来相对比较费劲,本文介绍通过 Pingmesh 方案来解决这个问题。Pingmesh 的提出最初是来自微软,在微软内部 Pingmesh 每天会记录 24TB 数据,进行 2000 亿次 ping 探测,通过这些数据,微软可以很好的进行网络故障判定和及时的修复。