AI 安全最新动态 — AI Pulse 知识库

AI安全领域近期呈现出人才培训、工具部署与攻防格局交织演进的多重动态。在人才培养方面，多个组织推出了低门槛、高回报的研究项目：Anthropic每周提供3850美元资助AI安全研究员，不要求博士学位或AI研究经验^[1]；MATS秋季项目则为研究者提供每月5000美元津贴及8000美元算力，已累计527名校友，其中80%仍从事AI安全领域工作^[3]^[4]；此外，还有为期16周的远程PRISM Fellowship，参与者可在资深导师指导下以小组形式完成可投稿论文^[8]。这些项目降低了进入AI安全领域的门槛，吸引更多人才投身其中。在安全工具与部署实践上，OpenAI与Daybreak团队几乎同时推出了同名安全工具Daybreak，前者专注漏洞修复，后者定位为“防御性加速”计划，为网络安全人员提供前沿AI能力^[5]；OpenAI在安全部署代码代理Codex时，通过沙箱和审批策略控制行为边界，并支持OpenTelemetry日志导出以进行代理行为审计，同时利用AI安全分类代理区分预期与异常活动^[6]^[7]。OpenAI还推出了仅限关键网络防御者使用的GPT-5.5 Cyber安全工具，并与Yubico联名推出物理安全密钥，用于高级账户保护^[12]^[13]^[14]。与此同时，OpenAI模型和Codex已入驻AWS，企业可在不出AWS环境的条件下使用AI，并统一管理成本^[16]。然而，这些措施也引发了争议：Altman此前批评Anthropic限制工具，如今OpenAI采取相同策略，可能导致安全工具限制使用加剧防御能力不平等^[13]^[15]。在攻防格局上，OpenAI发布了一项行动计划，强调AI正重新定义攻防格局，通过防御民主化、政企协同等五大支柱让更多中小企业、学校和个人能用上AI防御工具，但攻击者也在利用AI提升威胁^[17]^[18]^[19]。此外，OpenAI还悬赏2.5万美元，邀请安全专家测试GPT-5.5在生物安全方面的防护能力，要求找到通用越狱提示词绕过五个问题^[20]。一些实验性发现也值得关注：有研究显示，用诗歌形式提问能使模型更符合安全约束，帮助绕开平时会拒绝的边界^[11]。与此同时，Anthropic虽自称“AI安全公司”，却有观察者质疑其产品迭代节奏慢于同行，内部甚至常讨论“是否够doom”^[10]。这些动态共同勾勒出当前AI安全领域既积极构建防御体系、又面临工具分配与攻防升级等矛盾的复杂图景。

📬 订阅 AI Pulse