大厂出手了,微软推出 SRE agent 做故障定位
微软最近推出了一个名为 Azure SRE Agent 的新工具,这是一款 AI 驱动的工具,可以更轻松地维持生产云环境。SRE Agent 有助于快速有效地响应事件,减轻管理生产环境的工作量。总体而言,它可以延长服务正常运行时间并降低运营成本。SRE agent 利用 LLM 的推理功能来识别快速根本原因分析和问题缓解所需的日志和指标。其高级 AI 功能可转变 Azure 中的事件和基础结构管理,使工程师能够专注于更有意义的工作。
您可以在 Youtube 上观看 SRE Agent 的演示视频。下面是为微软撰写的相关介绍:
随着越来越多的公司将其服务转移到线上,站点可靠性工程 (SRE) 对于保持关键系统的可靠性、可扩展性和成本效益变得至关重要。但 SRE 不仅仅是解决问题,它还涉及弥合业务目标和开发人员需求之间的差距。随着基础架构复杂性的增加,在预测未来可扩展性和可靠性需求的同时保持一切平稳运行比以往任何时候都更加困难。
我们从 SRE 那里听说,他们因重复的实时站点事件处理和日志分析任务而承受了巨大的负担,临时管理任务会扰乱他们的工作流程。响应事件是有压力的,因为几秒钟很重要,几乎没有出错的余地。
SRE agent 将 Microsoft 团队在运行 Azure 云方面积累的多年经验带给您的团队。
SRE agent 是一项新的 Azure 服务,它为站点可靠性工程师 (SRE) 和开发人员提供提高事件响应、诊断和协作的速度和效率所需的工具,以快速解决问题。它与其他可观测性和事件管理工具以及 GitHub Copilot 中的新编码代理无缝集成。它在后台 24x7 全天候运行,学习和监控 Azure 资源的运行状况和性能,处理生产警报,并合作进行事件调查和根本原因分析 (RCA) 以更快地缓解问题。
主要能力
SRE agent 可以帮助您的基础设施更加安全、灵活和可扩展,并有助于更快地检测和响应事件。
评估使用情况和性能趋势
SRE agent 会持续了解您的 Azure 资源,以构建有关它们的相关上下文,而无需使用多种工具。您可以提出问题以了解其属性、配置和最近的更改。您可以通过可视化相关指标来了解他们的运行状况和性能。这使开发人员能够快速识别需要注意的异常或趋势。
提示词样例
- 我的应用程序在最后一天发生了什么变化?
- 上次在我的应用程序上执行 slot swap 是什么时候?
- 我应该为我的 Web 应用程序设置哪些警报?
- 您能给我 AKS 群集的总体使用情况吗?
- 我应该为我的应用程序设置哪些最佳实践?
- 可视化我的应用程序上周的请求和 500 个错误
主动检测和修复安全漏洞
SRE agent 会持续审核 Azure 资源,以确保符合安全最佳实践。目前,它会检查受支持的 TLS 版本的使用情况,并验证资源是否启用了托管标识。SRE agent 不仅可以识别潜在漏洞,还可以执行必要的作,以便在您批准的情况下更新资源,使其合规。
自动化事件响应和更快的根本原因分析
SRE agent 可以立即响应 Azure Monitor 警报。您还可以与 PagerDuty 等事件管理工具集成,以扩展其警报处理功能。通过此集成,SRE agent 可以:
- 检测到警报后开始调查。
- 访问指标、活动日志、依赖项和控制面板,以形成假设并确定根本原因。
传统的 RCA 方法可能需要数小时 ,而 SRE agent 可以在几分钟内完成,从而最大限度地减少影响并加快解决问题的速度。
事故止损
为了尽快止损故障,SRE agent 可以代表用户并在获得用户的批准后执行动作。这些动作可能包括扩展资源、重新启动应用程序以及回滚到以前工作的应用程序版本。
与开发人员一起形成闭环
调查完成后,SRE 代理会创建一个 GitHub 问题,其中包含调查中的所有详细信息,帮助开发人员修复源代码并防止事件后续再次发生。
看起来很牛吧?Azure 云环境中保存了很多客户的服务的元信息,比如某个服务,部署在哪里,配置在哪里,是否发生变更,用了哪些安全组、哪些负载均衡等,这些信息为 AI 大展拳脚提供了一定的数据基础。如果你不是 Azure 客户,或者你在云下,很多元信息构建起来就有些费劲了。我们创业做的 Flashcat 也在尝试使用 AI 协助定位故障,我们的做法是通过一些轻量手段获取元信息,然后让 AI 去分析各种关联数据,示意图如下:
如果你需要乙方协助构建智能的一站式智能观测平台,欢迎联系我们交流产品思路:https://flashcat.cloud/contact/