AI Pulse

NinoxAI:一个只读的AI SRE层,把告警风暴变成事故

NinoxAI:一个只读的AI SRE层,把告警风暴变成事故

运维工程师每天面对的不只是故障,还有告警风暴——一次真实问题被多个监控工具各自报一遍,页面能把人埋了。ninoxAI的解法很简单:把所有相关的告警归为一个事故,一次故障只产生一个页面。判断依据是多个工具确认同一异常,而不是每个症状单独报警。

它还会自动找出那些常年抖动、过度敏感、从来没人处理的噪声检查,附上证据。不再需要人工逐条甄别。

当事故被确认后,ninoxAI调用AI代理去读实时系统:Docker、Kubernetes、AWS、Grafana、Git、主机……读日志、读事件、读CI运行、读代码提交,形成根因假设。然后给出分类后的修复建议——可复制粘贴,按风险等级和影响半径排序。最终由人来审批、执行。

ninoxAI严格只读。不运行命令、不确认告警、不改阈值、不往生产环境写任何东西。每个操作被分成三类:只读、可逆、不可逆,未知操作强制归为不可逆。修复执行是有门控、有治理的,不在路线图上的东西不会静默执行。

部署成本很低。在目标环境里放一个轻量级、仅出站的代理(ninox runner),凭证存在本地,通过出站连接与大脑通信,不需要开入站防火墙。适配器覆盖了Checkmk、Prometheus、Icinga2、Zabbix、通用Webhook。PRTG目前只是存根。

远程调用前会执行编辑和秘密擦除:主机名、IP、UUID、邮箱、路径变成确定性占位符,凭证单向擦除且永不返回。这层处理走通了之后,才去联系系统。

支持多种LLM提供方:离线模式(template)、Mistral、Anthropic、OpenAI(包括Azure和本地LLM如vLLM、Ollama、LM Studio)。60秒就能跑起来,无需LLM、无需API密钥、完全离线。

ninoxAI完全开源,Apache License 2.0。路线图上有门控的修复执行,没有无条件的自动执行。

阅读原文
📚 相关主题 开源工程

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部