AI Pulse

你的AI不再只是聊天,出错时会直接替你发邮件改文件

你的AI不再只是聊天,出错时会直接替你发邮件改文件

AI代理能调用工具、访问文件、通过API操作、执行多步工作流。输出不只是建议,可能直接变成行动——比如替你发邮件、修改文件、下单。微软负责任AI首席产品官Sarah Bird说,AI能力每1到2个月就有一次重大跃升。

能力提升太快,传统安全审查跟不上了。Sarah Bird以代理式编程为例:AI写代码,AI审查代码,整个流程两小时完成。若要求人工复查,需要三天。人类审查在AI工作流面前显得荒谬。

AI代理出错时,后果从“建议错误”升级为“行动错误”。2026年6月18日,Google DeepMind发布《保障AI代理的未来》,提出AI控制路线图。DeepMind明确表示:不能假设训练良好的模型总能理解目标、保持边界、抵抗操纵或安全使用工具。要假设代理可能出错,提前给它装上刹车和护栏。

过去的安全思路主要靠原则声明和法规框架。NIST AI风险管理框架2023年1月发布,欧盟AI法案2024年8月1日生效,为AI开发和使用设置了标准。但这些框架本身无法阻止错误的工具调用,无法发现代理越界,也无法在运行时中断危险工作流。

代理时代需要干预。Sarah Bird的团队正把更多精力放在自动化风险检测和扫描上。他们用编码工具和代码理解工具直接检查系统,而不是让工程师填表格。Sarah说,不能靠单一手段解决问题,负责任AI必须融入系统设计,跨多个领域协作——模型训练、后训练、低延迟系统、大规模工程、应用科学、语言学、法律和政策。

尚不确定这些自动化检测能否覆盖所有风险场景,误报或漏报时用户有没有申诉渠道。当AI代理跨公司、跨国界运行时,不同地区的安全标准怎么协调,也还没有清晰答案。但方向已经清楚:安全机制正从纸面原则转向运行时拦截,用户未来用的AI代理将内置更实时的控制手段。

阅读原文

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部