半夜被警报叫醒?现在AI能自动串起线索告诉你哪真出问题
微软把 Azure Copilot 里的可观测性智能体(Observability Agent)正式放出来了。这个代理不只是回答监控数据的问题,还能主动查故障——跨整个 Azure 资产关联信号,给出根因分析。
换个说法,它就像个侦探:收到警报后先根据信号提出假设,然后收集证据、比较多个来源的数据,排除不合理的解释,最后把结论推给你。整个过程会生成一个可审计的 Azure Monitor issue,记录发现了什么、排除了什么、下一步该做什么。
这个代理能关联多种数据来源:Application Insights 监控的应用、Azure Kubernetes Service 集群、虚拟机、Azure Foundry 里的 AI 工作负载——包括 token 用量异常、工具调用失败、智能体错误和幻觉。以前排查这些问题得跳不同的工具,现在它们被串起来了。
调查的时候,代理使用当前登录用户的身份和 Azure RBAC 权限。它只能看到你能看到的,不会越界。提示和响应也不会用于训练基础模型。
还有一个新功能:自主操作模式,目前进入公开预览。打开后,代理可以在后台分析警报,把相关的警报自动归并为一个事件,然后启动深度调查。但它不能自己执行任何变更——不会重启资源、不会改配置、不会主动解决问题。调查结果仍然由人来判断和操作。
这种设计既减少了警报噪音,也满足了合规要求。大量警报自动合并,噪音少了;变更决策权始终在运维人员手里。
微软还同步发布了 Azure Resource Manager MCP Server,也是公开预览。它让 AI 代理通过标准化接口直接查询云成本和使用数据。开发者能在 IDE 或自定义工作流里查成本,不用再登 Azure 门户。
效果方面,KPMG 说这个智能体帮他们每月省了大概 250 个工程小时——相当于 1.5 个全职工程师,主要省在查故障和运维开销上。
这是微软在 AI 运维上的最新一步,方向是把人的精力从翻日志挪到做决策。不过目前还不清楚自主操作模式的警报合并规则具体是什么,误合并的风险也没说。