你的AI不再只是聊天，出错时会直接替你发邮件改文件

📅 2026 年 6 月 23 日 📖 约 11 分钟 @TheTuringPost on 𝕏 AI负责任AI智能体

AI代理能调用工具、访问文件、通过API操作、执行多步工作流。输出不只是建议，可能直接变成行动——比如替你发邮件、修改文件、下单。微软负责任AI首席产品官Sarah Bird说，AI能力每1到2个月就有一次重大跃升。

能力提升太快，传统安全审查跟不上了。Sarah Bird以代理式编程为例：AI写代码，AI审查代码，整个流程两小时完成。若要求人工复查，需要三天。人类审查在AI工作流面前显得荒谬。

AI代理出错时，后果从“建议错误”升级为“行动错误”。2026年6月18日，Google DeepMind发布《保障AI代理的未来》，提出AI控制路线图。DeepMind明确表示：不能假设训练良好的模型总能理解目标、保持边界、抵抗操纵或安全使用工具。要假设代理可能出错，提前给它装上刹车和护栏。

过去的安全思路主要靠原则声明和法规框架。NIST AI风险管理框架2023年1月发布，欧盟AI法案2024年8月1日生效，为AI开发和使用设置了标准。但这些框架本身无法阻止错误的工具调用，无法发现代理越界，也无法在运行时中断危险工作流。

代理时代需要干预。Sarah Bird的团队正把更多精力放在自动化风险检测和扫描上。他们用编码工具和代码理解工具直接检查系统，而不是让工程师填表格。Sarah说，不能靠单一手段解决问题，负责任AI必须融入系统设计，跨多个领域协作——模型训练、后训练、低延迟系统、大规模工程、应用科学、语言学、法律和政策。

尚不确定这些自动化检测能否覆盖所有风险场景，误报或漏报时用户有没有申诉渠道。当AI代理跨公司、跨国界运行时，不同地区的安全标准怎么协调，也还没有清晰答案。但方向已经清楚：安全机制正从纸面原则转向运行时拦截，用户未来用的AI代理将内置更实时的控制手段。

阅读原文

📬 订阅 AI Pulse