半夜被警报叫醒？现在AI能自动串起线索告诉你哪真出问题

📅 2026 年 6 月 26 日 📖 约 11 分钟 @MichaelGannotti on 𝕏 AI云服务运维

微软把 Azure Copilot 里的可观测性智能体（Observability Agent）正式放出来了。这个代理不只是回答监控数据的问题，还能主动查故障——跨整个 Azure 资产关联信号，给出根因分析。

换个说法，它就像个侦探：收到警报后先根据信号提出假设，然后收集证据、比较多个来源的数据，排除不合理的解释，最后把结论推给你。整个过程会生成一个可审计的 Azure Monitor issue，记录发现了什么、排除了什么、下一步该做什么。

这个代理能关联多种数据来源：Application Insights 监控的应用、Azure Kubernetes Service 集群、虚拟机、Azure Foundry 里的 AI 工作负载——包括 token 用量异常、工具调用失败、智能体错误和幻觉。以前排查这些问题得跳不同的工具，现在它们被串起来了。

调查的时候，代理使用当前登录用户的身份和 Azure RBAC 权限。它只能看到你能看到的，不会越界。提示和响应也不会用于训练基础模型。

还有一个新功能：自主操作模式，目前进入公开预览。打开后，代理可以在后台分析警报，把相关的警报自动归并为一个事件，然后启动深度调查。但它不能自己执行任何变更——不会重启资源、不会改配置、不会主动解决问题。调查结果仍然由人来判断和操作。

这种设计既减少了警报噪音，也满足了合规要求。大量警报自动合并，噪音少了；变更决策权始终在运维人员手里。

微软还同步发布了 Azure Resource Manager MCP Server，也是公开预览。它让 AI 代理通过标准化接口直接查询云成本和使用数据。开发者能在 IDE 或自定义工作流里查成本，不用再登 Azure 门户。

效果方面，KPMG 说这个智能体帮他们每月省了大概 250 个工程小时——相当于 1.5 个全职工程师，主要省在查故障和运维开销上。

这是微软在 AI 运维上的最新一步，方向是把人的精力从翻日志挪到做决策。不过目前还不清楚自主操作模式的警报合并规则具体是什么，误合并的风险也没说。

阅读原文

📚 相关主题云服务运维

📬 订阅 AI Pulse