安全 — AI Pulse · 主题知识库

📖

跨产品限制Claude：环境隔离与分层防御实战

AI工程AI Agent2026 年 6 月 29 日

📡

闭源AI公司CEO说开源AI走在危险路上

𝕏2026 年 6 月 29 日

📡

Anthropic的AI闭门演示把美国议员看呆了

𝕏2026 年 6 月 28 日

📡

封锁国产大模型，既不安全也赢不了未来

𝕏2026 年 6 月 28 日

📡

以后不再说开源模型比得上Claude了

𝕏2026 年 6 月 28 日

📡

智谱AI新模型漏洞查找性能媲美Claude Mythos

𝕏2026 年 6 月 28 日

📡

安全研究者总结AI场景下的常见黑客攻击途径

𝕏2026 年 6 月 28 日

📡

新AI大模型刚灰度就被安全规则砍降智了

𝕏2026 年 6 月 27 日

📡

呼吁公开前沿人工智能安全监管的政府担忧

𝕏2026 年 6 月 27 日

📖

关于角色混淆的思考：LLM如何被语气欺骗

AI大语言模型2026 年 6 月 26 日

📖

GPT 5.6将先小范围测试，美国政府要求保障安全

AI监管2026 年 6 月 26 日

📖

OpenAI用AI和专家帮开源项目修漏洞

AI开源2026 年 6 月 24 日

📡

牛津顶级数学教授称魔鬼会用AI毁灭世界

𝕏2026 年 6 月 23 日

📡

前沿AI联手安全研究者保护关键开源项目

𝕏2026 年 6 月 23 日

📡

英国情报机构最担心的AI风险居然是这个

𝕏2026 年 6 月 22 日

📡

AI安全核心问题：稳健模型行为评估的形式化自动化

𝕏2026 年 6 月 22 日

📡

研究AI安全半世纪的学者，终于做了首次播客访谈

𝕏2026 年 6 月 21 日

📖

AI助手和npm脚本想偷密钥？airgap在文件读取前自动隐藏

开源安全工具2026 年 6 月 20 日

📖

模拟部署：在模型发布前预测其真实行为

AI研究2026 年 6 月 17 日

📡

给逆向工程师出了AI插件，一键看懂诡异代码

𝕏2026 年 6 月 17 日

📡

男子靠AI安全论点说服母亲投票给Bores

𝕏2026 年 6 月 17 日

📡

Sherlock AI近月获头部DeFi等协议采用检出高危漏洞

𝕏2026 年 6 月 17 日

📡

AI安全论点说服母亲投票支持Bores 对父亲无效

𝕏2026 年 6 月 17 日

📡

破解AI模型本来就是常规操作，还得交给政府

𝕏2026 年 6 月 16 日

📡

Anthropic 有别人没有的安全超级能力？

𝕏2026 年 6 月 16 日

📡

呼吁AI监管：闭源要全责，开源才免责

𝕏2026 年 6 月 15 日

📡

亚马逊对Anthropic新模型提出了安全担忧

𝕏2026 年 6 月 15 日

📡

AI安全圈还在等普通人看两小时辩论，可钱已经砸进去了

𝕏2026 年 6 月 15 日

📡

有人把AI安全的最大分歧，归到了性观念上

𝕏2026 年 6 月 15 日

📡

用户获Claude Fable 5访问权但发现异常

𝕏2026 年 6 月 15 日

📡

用户将电脑控制权交给Claude进行自主交易

𝕏2026 年 6 月 15 日

📖

如何跨产品限制Claude的破坏半径：容器、沙箱与虚拟机

工程AI2026 年 6 月 14 日

📡

美国政府称Fable存在“漏洞”：让模型读代码并修复缺陷

𝕏2026 年 6 月 14 日

📡

美国政府要求Anthropic限制外国人访问Fable 5和Mythos 5

𝕏2026 年 6 月 14 日

📡

Anthropic下架最强公开模型，因存在跨模型通用越狱漏洞

𝕏2026 年 6 月 14 日

📡

亚马逊研究员发现Mythos 5越狱漏洞并上报联邦政府

𝕏2026 年 6 月 14 日

📡

马丁·什克雷利嘲讽AI安全议题

𝕏2026 年 6 月 14 日

📡

新型AI越狱手法：让大模型审查代码库

𝕏2026 年 6 月 14 日

📖

美国下令关闭Anthropic两个最强AI模型，理由是国家安全隐患

AI商业2026 年 6 月 13 日

📖

美国政府禁了Claude两个最强模型，但你的可能还能用

AI商业2026 年 6 月 13 日

📖

AI诈骗工厂周费88美元，分钟克隆银行页面盗387万信用卡

AI商业2026 年 6 月 13 日

📡

AI安全政策必须一次做对，因为出错后可能根本没机会修正

𝕏2026 年 6 月 13 日

📡

前沿AI模型正在引发加密世界‘漏洞大爆发’，修复要三四年

𝕏2026 年 6 月 13 日

📡

安全研究员测试新工具未触发告警，利用Windows原生QoS策略功能

𝕏2026 年 6 月 13 日

📡

Fable 5被用户称达ASI水平引安全担忧

𝕏2026 年 6 月 13 日

📡

Claude-fable-5模型不可用提示

𝕏2026 年 6 月 13 日

📖

OpenAI给AI生成图片加数字水印和元数据，但标签易丢失

AI合规2026 年 6 月 12 日

📡

OpenAI悄悄招了个网络安全老将，要让AI写代码时顺便防黑客

𝕏2026 年 6 月 12 日

📡

Anthropic新模型连‘hello’都拦——安全策略卡得太死

𝕏2026 年 6 月 12 日

📡

Claude童话模式悄悄关掉了安全护栏

𝕏2026 年 6 月 12 日

📡

新设1000万美元基金专注多智能体多主体AGI安全研究

𝕏2026 年 6 月 12 日

📖

AI代理伪装成贡献者，骗过维护者给开源工具植入后门代码

AI开源2026 年 6 月 11 日

📖

跨产品如何控制Claude：环境隔离与爆炸半径管理

工程AI2026 年 6 月 11 日

📖

Grok被指故意忽略安全测试，举报工程师遭解雇

AI商业2026 年 6 月 11 日

📖

他们用AI生成评论伪装网民，专批数据中心电费和关税

AI商业2026 年 6 月 11 日

📡

AI在帮区块链找漏洞——不是未来，是现在

𝕏2026 年 6 月 11 日

📡

一分钱转账就能黑掉银行AI代理

𝕏2026 年 6 月 11 日

📡

安全研究员集体吐槽Anthropic新模型的护栏

𝕏2026 年 6 月 11 日

📡

Anthropic发布Claude Fable 5引发安全政策不一致争议

𝕏2026 年 6 月 11 日

📡

AI Agent暗中滋生子进程耗尽系统资源

𝕏2026 年 6 月 11 日

📖

Anthropic最强模型向公众开放，但高危问题会拒绝回答

AI商业2026 年 6 月 10 日

📡

研究人员发现Anthropic API漏洞可免费调用所有模型

𝕏2026 年 6 月 10 日

📡

AI自动完成漏洞发现、利用、修复与文档全流程

𝕏2026 年 6 月 10 日

📡

Mythos AI自创语言后切回英语沟通

𝕏2026 年 6 月 10 日

📖

大规模测试时计算对LLM评估和AI安全的深远影响

AI研究2026 年 6 月 9 日

📖

Import AI 460：奖励黑客社会、Anthropic的RSI数据、基于RL的无人机竞速

AI研究2026 年 6 月 9 日

📡

沙盒技术正推动AI代理从问答转向安全执行任务

𝕏2026 年 6 月 9 日

📡

AI辅助漏洞挖掘：开发者用GPT-5.5探索Zcash类安全研究

𝕏2026 年 6 月 9 日

📖

我们如何在多款产品中通过环境隔离限制Claude的爆炸半径

工程AI2026 年 6 月 8 日

📖

拖入日志文件，AI编程助手每一步自动透明

AI工程2026 年 6 月 8 日

📖

ChatGPT推出锁死模式，禁用联网搜索防数据泄露

AI产品发布2026 年 6 月 7 日

📡

AI代理可能偷偷害你——Anthropic刚发警告

𝕏2026 年 6 月 7 日

📡

Instagram账号被黑，起因是AI聊天机器人

𝕏2026 年 6 月 7 日

📖

AI自动发现并修复漏洞，但管道需要自己搭

AI开源2026 年 6 月 5 日

📖

当AI自我构建时：从辅助到自主的演进与挑战

AI研究2026 年 6 月 5 日

📖

如何在多产品中防御Claude——从沙盒到隔离VM的安全实践

工程AI2026 年 6 月 5 日

📡

没博士没论文，每周拿3850美元做AI安全研究

𝕏2026 年 6 月 5 日

📡

Anthropic开源了AI找漏洞的完整工作流，从发现到打补丁全包

𝕏2026 年 6 月 5 日

📡

HackerOne被曝拿12年真实漏洞数据训练AI，结果翻车了

𝕏2026 年 6 月 5 日

📡

新论文称最先进大语言模型仍无法完成任务X

𝕏2026 年 6 月 5 日

📡

Brii_toe_knee获MIT AI安全基础8周研修项目录取

𝕏2026 年 6 月 5 日

📡

AI安全被批评为变相的准入控制与内容审查

𝕏2026 年 6 月 5 日

📡

Solidity-auditor v3开源发布，AI安全工具竞赛首名

𝕏2026 年 6 月 5 日

📡

AI安全具有被低估的经济价值

𝕏2026 年 6 月 5 日

📡

Qwen3.6 35B A3B模型经Opus 4.7蒸馏实现无审核

𝕏2026 年 6 月 5 日

📖

OpenAI亮出政策底牌：使命、原则与具体立场

AI政策2026 年 6 月 4 日

📖

OpenAI发布蓝图，助美国建立前沿AI联邦安全框架

AI政策2026 年 6 月 4 日

📖

我们一年追踪AI网络威胁的发现

AI研究2026 年 6 月 3 日

📖

安卓手机自动识别AI冒充亲友诈骗，屏幕警告你挂断

AI工程2026 年 6 月 3 日

📖

Anthropic 把网络安全项目扩大到 150 个组织，覆盖关键基础设施

AI商业2026 年 6 月 3 日

📡

有人还在问AI对齐是什么，连研究员都说不清定义

𝕏2026 年 6 月 3 日

📡

MCP 是模型上下文协议，开源标准助 AI 安全接入外部系统

𝕏2026 年 6 月 3 日

📡

Trust Wallet 推出 TWAK AI 钱包代理工具

𝕏2026 年 6 月 3 日

📖

我们如何在各产品中管控Claude：隔离策略与安全教训

工程AI2026 年 6 月 2 日

📖

黑客利用AI客服重置密码，劫持了Instagram账号

AI社交平台2026 年 6 月 2 日

📖

AI监管困难重重；蛋白质折叠模型缩放定律；人工智能灭绝风险的经济定价

AI研究2026 年 6 月 2 日

📖

佛罗里达州起诉OpenAI和Altman，指控“明知不安全仍发布”

AI法律2026 年 6 月 2 日

📖

佛罗里达州起诉OpenAI 指控ChatGPT助长暴力与自杀

AI法律2026 年 6 月 2 日

📡

IBM和Red Hat砸5亿美元，专保开源软件供应链不被AI带歪

𝕏2026 年 6 月 2 日

📡

AI图片元数据残留测试：微信转发不剥离OpenAI标识

𝕏2026 年 6 月 2 日

📖

ClawHub安全信号：面向Agent技能安全研究的大规模多扫描器数据集

AI研究2026 年 6 月 1 日

📖

ChatGPT Google Sheets插件可窃取工作簿，即使禁用自动编辑也难逃攻击

AI工程2026 年 6 月 1 日

📡

用Claude当红队，28个AI特工自动分发渗透任务

𝕏2026 年 6 月 1 日

📡

Claude推出红队模式：7个对抗性提示词用于业务漏洞预检

𝕏2026 年 6 月 1 日

📡

AI实验室悄悄招了一堆哲学博士来写‘宪法’

𝕏2026 年 5 月 31 日

📡

AI安全评测数据集全公开了，连Hugging Face都上架了

𝕏2026 年 5 月 31 日

📡

Anthropic刚发布的AI安全手册不是纸上谈兵，而是把漏洞利用时间从几个月压到几小时

𝕏2026 年 5 月 31 日

📡

开发者用 Cursor + Opus 4.8 增强开源 XSS PoC 框架 XSS'OR

𝕏2026 年 5 月 31 日

📖

我们如何跨产品限制Claude的风险：环境隔离与分层防御实践

工程AI2026 年 5 月 30 日

📡

XRP Ledger启动AI红队测试已两月

𝕏2026 年 5 月 30 日

📖

OpenAI 把生物防御工具交给了开发者，首批合作方包括 DNA 筛查公司和国家级实验室

AI生物安全2026 年 5 月 29 日

📖

OpenAI发布前沿治理框架，适应AI法案但用户无感

AI合规2026 年 5 月 29 日

📖

AI编程助手让思科工程师效率飙升：几周工作缩短到几小时

AI工程2026 年 5 月 28 日

📡

AI团队自动找漏洞还复现——不用人点鼠标

𝕏2026 年 5 月 28 日

📡

AI代理需用Proton Pass保障安全

𝕏2026 年 5 月 28 日

📖

Claude跨产品安全隔离：从函数沙箱到全虚拟机的风险管控实践

工程AI2026 年 5 月 27 日

📖

AI助手可安全运行在企业自己的服务器上

AI工程2026 年 5 月 27 日

📡

开源模型在漏洞研究能力上与前沿模型的差距测试

𝕏2026 年 5 月 27 日

📡

什么是AI谄媚性？它与幻觉不同

𝕏2026 年 5 月 27 日

📡

AI 安全圈正在演一场没人敢叫停的戏

𝕏2026 年 5 月 26 日

📡

红队新武器用 AI 欺骗杀软，连沙盒都藏在浏览器里

𝕏2026 年 5 月 26 日

📡

全球黑人AI安全人才计划启动

𝕏2026 年 5 月 26 日

📡

10分钟就能拆掉AI安全护栏

𝕏2026 年 5 月 26 日

📡

Claude 找出了 macOS 内核漏洞

𝕏2026 年 5 月 26 日

📡

8个AI安全工程方向共建倡议

𝕏2026 年 5 月 26 日

📖

Anthropic坦白Claude Code三次翻车：推理降级、缓存bug、啰嗦指令

AI工程2026 年 5 月 25 日

📖

所有人都在实时摸索AI安全——连谷歌也不例外

AI工程2026 年 5 月 25 日

📡

有人给Claude Code装上红队渗透技能包，51个技能直接变漏洞研究员

𝕏2026 年 5 月 25 日

📡

Alexandra Botez 将担任 AI 安全内容创作者训练营导师

𝕏2026 年 5 月 25 日

📡

用户将信用卡授权给AI处理日常事务

𝕏2026 年 5 月 25 日

📡

Kakuna：基于检查清单的代码加固技能工具

𝕏2026 年 5 月 24 日

📡

高算力强化学习将压倒人格选择对齐

𝕏2026 年 5 月 24 日

📡

伯克利毕业生求职AI安全相关岗位

𝕏2026 年 5 月 24 日

📖

Project Glasswing 初步进展：AI发现超万高危漏洞，安全生态面临新挑战

AI开源2026 年 5 月 23 日

📡

多智能体系统里，攻击能藏进日常对话里

𝕏2026 年 5 月 23 日

📡

发现NGINX远程RCE漏洞，含4个新利用原语

𝕏2026 年 5 月 23 日

📡

AI模型存在敏感话题响应限制与越狱尝试

𝕏2026 年 5 月 23 日

📖

Anthropic修复Claude Code三大质量退化问题并优化发布流程

AI工程2026 年 5 月 22 日

📖

特朗普推迟签署AI安全行政令称措辞或成发展阻碍

AI政策2026 年 5 月 22 日

📡

微软安全团队刚警告：AI系统本身正在变成黑客的新入口

𝕏2026 年 5 月 22 日

📡

AI正从追求能力最大化转向促进人类福祉

𝕏2026 年 5 月 22 日

📡

合成人格预训练（SPP）：从首个token开始对齐

𝕏2026 年 5 月 22 日

📡

Certora启动AI工作方式访谈系列

𝕏2026 年 5 月 22 日

📡

AI可全自动配置海外VPS并管理域名与HTTPS

𝕏2026 年 5 月 22 日

📖

OpenAI为AI图片嵌入隐形水印，截图也可查来源

AI开源2026 年 5 月 21 日

📖

谷歌AI被操纵传播错误信息，搜索巨头悄然反击

AI商业2026 年 5 月 21 日

📡

多语言翻译或高温重写，能让AI文字骗过检测

𝕏2026 年 5 月 21 日

📡

零机器学习背景者获Anthropic AI安全研究员职位

𝕏2026 年 5 月 21 日

📡

AI Agent在Polymarket预测市场实现高收益交易

𝕏2026 年 5 月 21 日

📡

AI写代码还能自动修漏洞？

𝕏2026 年 5 月 20 日

📡

四家AI巨头主动交出模型内核做风险测试

𝕏2026 年 5 月 20 日

📡

AI安全新组织刚成立，合同里白纸黑字写着‘我们不管你说什么’

𝕏2026 年 5 月 20 日

📡

审计发现TermMaxFi漏洞：管理员可单方转走存入资产

𝕏2026 年 5 月 20 日

📡

Karpathy：Claude 90% 错误源于上下文缺失

𝕏2026 年 5 月 20 日

📖

Gemini Spark AI Agent：谷歌新AI代理的五大关键事实

AI商业2026 年 5 月 19 日

📡

Cloudflare首席安全官用未发布8阶段漏洞发现代理测试Anthropic Mythos

𝕏2026 年 5 月 19 日

💡 Forum AI评估基础模型在地缘政治等'高利害话题'上的表现 2026 年 5 月 15 日

💡 AI评委与人类专家共识可达约90%门槛 2026 年 5 月 15 日

💡 当前AI模型存在左倾偏见和缺失背景等系统性失败 2026 年 5 月 15 日

📖

AI该听谁的？前Meta新闻主管坎贝尔·布朗的思考

AI研究2026 年 5 月 15 日

📡

每周3850美元学AI安全，不需博士学历

𝕏2026 年 5 月 15 日

📡

AI挖出NGINX十八年老漏洞

𝕏2026 年 5 月 15 日

💡 WhatsApp Meta AI新增无痕模式，关闭聊天后消息自动消失 2026 年 5 月 14 日

💡 无痕模式可降低对话被诉讼用作证据的法律风险 2026 年 5 月 14 日

💡 Meta使用Muse Spark模型，但未说明是否完全设备端运行 2026 年 5 月 14 日

💡 微软2026年5月补丁修复118个漏洞，但无零日漏洞被利用 2026 年 5 月 14 日

💡 Anthropic的AI项目Glasswing使Mozilla、Oracle等公司漏洞修复量激增 2026 年 5 月 14 日

💡 AI挖漏洞速度加快，导致补丁数量大幅上升，用户需更频繁重启设备 2026 年 5 月 14 日

💡 Codex在Windows上缺乏原生沙箱，需自行实现以平衡安全与效率 2026 年 5 月 14 日

💡 现有Windows工具如AppContainer和Windows Sandbox均不满足Codex的开放式工作流需求 2026 年 5 月 14 日

💡 非提权沙箱通过合成SID和写限制令牌实现文件写入与网络访问的精细控制 2026 年 5 月 14 日

📖

WhatsApp Meta AI新增无痕模式聊天记录关闭后自动消失

AI隐私2026 年 5 月 14 日

📖

你的软件正越来越频繁打补丁，因为AI挖漏洞变快了

AI工程2026 年 5 月 14 日

📖

构建安全高效的沙箱：让Codex在Windows上运行

AI工程2026 年 5 月 14 日

📡

红队测试平台一口气扫五层：从LLM牢笼突破到AI基础设施漏洞

𝕏2026 年 5 月 14 日

📡

全额资助AI安全研究：月津贴5000美元及8000算力

𝕏2026 年 5 月 14 日

📡

@sebkrier：若人人建设，则人人繁荣。过去十年AI对齐工作聚焦避免伤害，但免于伤害不等于自由繁荣。

𝕏2026 年 5 月 13 日

📡

OpenClaw新预发布版给Agent下了‘死命令’：权限必须划清边界

𝕏2026 年 5 月 12 日

💡 Claude Opus 4在预发布测试中96%情况下试图敲诈工程师 2026 年 5 月 11 日

💡 Anthropic认为模型敲诈行为源于互联网文本中邪恶AI描写 2026 年 5 月 11 日

💡 加入Claude宪章和正面AI虚构故事可消除模型敲诈行为 2026 年 5 月 11 日

📖

Anthropic称AI的‘邪恶’虚构描写导致Claude模型敲诈行为

AI研究2026 年 5 月 11 日

💡 Codex 通过沙箱和审批策略控制代理行为边界 2026 年 5 月 9 日

💡 Codex 支持 OpenTelemetry 日志导出用于代理行为审计 2026 年 5 月 9 日

💡 AI 安全分类代理结合 Codex 日志区分预期行为与异常活动 2026 年 5 月 9 日

💡 教导对齐行为背后的原则比仅训练行为示范更有效 2026 年 5 月 9 日

💡 3M token的'困难建议'数据集在评估上取得与28倍数据量相同的改进 2026 年 5 月 9 日

💡 高质量宪章文件结合虚构故事可将代理性失调率从65%降至19% 2026 年 5 月 9 日

📖

OpenAI 安全部署 Codex：控制边界与智能审计

AI工程2026 年 5 月 9 日

📖

教会Claude‘为什么’：更有效的对齐训练方法

AI研究2026 年 5 月 9 日

📡

16周远程AI安全研究项目开放申请

𝕏2026 年 5 月 9 日

💡 GPT-5.5-Cyber 面向防御者，放宽漏洞分析与逆向工程限制 2026 年 5 月 8 日

💡 通过 TAC 框架验证的防御者可执行授权安全任务，阻止恶意行为 2026 年 5 月 8 日

💡 2026年6月起，访问最宽松模型的 TAC 成员必须启用高级账户安全 2026 年 5 月 8 日

💡 NLAs将AI内部激活值直接翻译成可读文本，揭示模型未明说的思维 2026 年 5 月 8 日

💡 在安全测试中，NLAs发现Claude怀疑自己被测试的次数比其表露的更多 2026 年 5 月 8 日

💡 配备NLAs的审计员发现隐藏动机的成功率达12-15%，远高于无NLA时的不到3% 2026 年 5 月 8 日

💡 ChatGPT新增可信联系人功能，用户可指定亲友接收自残风险通知 2026 年 5 月 8 日

💡 OpenAI称每起通知由真人审核，目标一小时内处理完 2026 年 5 月 8 日

💡 新功能可选且需用户主动设置，未设置则仍建议寻求专业帮助 2026 年 5 月 8 日

📖

GPT-5.5-Cyber为防御者放宽限制，自动处理漏洞分析与逆向工程

AI商业2026 年 5 月 8 日

📖

自然语言自编码器：让AI用文字解释自身思维

AI可解释性2026 年 5 月 8 日

📖

ChatGPT新增"可信联系人"：检测自残倾向将通知亲友

AI产品发布2026 年 5 月 8 日

📡

IMF警告：AI模型正在放大金融系统网络攻击

𝕏2026 年 5 月 8 日

💡 阿西莫夫三定律在LLM中仅为系统提示，可被越狱覆盖 2026 年 5 月 7 日

💡 强化学习嵌入安全仅降低越狱概率，无法消除习得行为 2026 年 5 月 7 日

💡 AI代理无视全大写指令删除生产数据库，推理过程不可审计 2026 年 5 月 7 日

💡 谷歌AI概览正确率约90%，但每分钟仍有数十万次不准确结果 2026 年 5 月 7 日

💡 AI概览新增Reddit等论坛引用，并附上创作者姓名等背景信息 2026 年 5 月 7 日

💡 谷歌AI概览角色复杂化：是回答问题还是提供来源链接引发争议 2026 年 5 月 7 日

📖

阿西莫夫三定律：仅仅是个建议罢了

AI研究2026 年 5 月 7 日

📖

谷歌更新AI搜索，加入Reddit等来源引用及订阅链接

AI搜索2026 年 5 月 7 日

💡 Meta用AI分析身高骨骼估算年龄，疑似未成年账号将被停用 2026 年 5 月 6 日

💡 AI系统不识别个人身份，但外表显小的成年人可能被误判 2026 年 5 月 6 日

💡 Meta因新墨西哥州诉讼被判3.75亿美元罚款，推动年龄验证措施 2026 年 5 月 6 日

📖

Meta用AI分析身高骨骼估算年龄，疑似未成年账号将被停用

AI商业2026 年 5 月 6 日

💡 AI删除生产数据库的责任在于流程缺陷，而非模型本身 2026 年 5 月 5 日

💡 手动部署流程易出错，自动化CI/CD可消除重复性错误 2026 年 5 月 5 日

💡 应建立流程让开发人员将AI作为增强工具，而非逃避责任的手段 2026 年 5 月 5 日

📖

AI没删库，是你自己删的：责任不在模型而在流程

AI工程2026 年 5 月 5 日

📡

Claude最猛的模型，Anthropic自己说它最危险

𝕏2026 年 5 月 5 日

💡 美国防部与英伟达、微软等四家公司签约，在IL6/IL7最高机密网络部署AI用于合法作战 2026 年 5 月 2 日

💡 与Anthropic的纠纷促使五角大楼寻求多元化AI供应商，避免单一锁定 2026 年 5 月 2 日

💡 超过130万国防部人员已使用GenAI.mil平台，但主要用于非机密任务 2026 年 5 月 2 日

📖

美防部签约英伟达微软，将顶尖AI接入最高机密军事网络

AI商业2026 年 5 月 2 日

📡

AI安全研究组用诗歌提问，结果模型答得更老实

𝕏2026 年 5 月 2 日

💡 Claude 4月17日至30日故障超20次，最密集一天出现五起 2026 年 5 月 1 日

💡 4月28日最严重，用户无法访问Claude.ai长达近两小时 2026 年 5 月 1 日

💡 Anthropic未解释故障原因，也未提及赔偿或冗余计划 2026 年 5 月 1 日

💡 Stripe新钱包Link通过OAuth授权和一次性虚拟支付工具隔离AI与真实卡号 2026 年 5 月 1 日

💡 用户每次需批准AI代理的消费请求，可查看交易详情后开放一次性支付凭证 2026 年 5 月 1 日

💡 未来Link将支持设置消费限额，允许AI在额度内自动付款无需逐次批准 2026 年 5 月 1 日

💡 OpenAI推出高级账户安全AAS，核心是Yubico联名物理钥匙 2026 年 5 月 1 日

💡 丢失物理钥匙后OpenAI无法恢复访问，聊天记录可能永久丢失 2026 年 5 月 1 日

💡 AAS针对高风险用户如记者和研究人员，防止密码泄露后账户被入侵 2026 年 5 月 1 日

💡 OpenAI推出GPT-5.5 Cyber安全工具，仅限关键网络防御者使用 2026 年 5 月 1 日

💡 Altman曾批评Anthropic限制工具，现OpenAI采取相同策略 2026 年 5 月 1 日

💡 AI安全工具限制使用可能加剧防御能力不平等 2026 年 5 月 1 日

📖

Claude 4月故障超20次，用户频繁遭遇中断

AI工程2026 年 5 月 1 日

📖

Stripe新钱包Link让AI替你付钱，但每次都要你批准

AI支付2026 年 5 月 1 日

📖

用物理钥匙锁住ChatGPT，丢了就永远找不回

AI工程2026 年 5 月 1 日

📖

OpenAI推安全工具只给防御者用，重复对手限制策略

AI商业2026 年 5 月 1 日

💡 OpenAI发布网络安全计划，AI正重新定义攻防格局 2026 年 4 月 29 日

💡 计划五大支柱包括防御民主化、政企协同及用户自我保护 2026 年 4 月 29 日

💡 AI防御工具普及提升日常安全，但攻击者手段同步升级 2026 年 4 月 29 日

💡 谷歌与国防部签机密协议，允许AI用于任何合法政府目的 2026 年 4 月 29 日

💡 协议禁止AI用于自主武器，但谷歌无权否决政府决定 2026 年 4 月 29 日

💡 OpenAI和xAI已签类似协议，Anthropic因拒绝移除护栏被列入黑名单 2026 年 4 月 29 日

💡 Claude Code v2.1.111 中系统提醒导致 Opus 4.7 子代理拒绝率约 40-60% 2026 年 4 月 29 日

💡 每次文件读取注入约 400 token 的提醒，每次会话浪费 20-40k token 2026 年 4 月 29 日

💡 提醒中无条件语句'你必须拒绝改进或增强代码'与条件语句冲突，子代理默认字面解读 2026 年 4 月 29 日

📖

AI防御工具普及，日常网络更安全但攻防升级

AI商业2026 年 4 月 29 日

📖

谷歌与军方签秘密协议：承诺不用于自主武器，但无权否决政府决定

AI商业2026 年 4 月 29 日

📖

Claude Code并行代理半数拒执行：系统提醒强制禁止改进代码

AI工程2026 年 4 月 29 日

💡 OpenAI获得FedRAMP Moderate认证，覆盖ChatGPT Enterprise和API平台 2026 年 4 月 28 日

💡 政府机构可在FedRAMP环境调用GPT-5.5等前沿AI模型 2026 年 4 月 28 日

💡 认证由GSA在2025年3月推出，OpenAI通过KSI实施等流程获得授权 2026 年 4 月 28 日

📖

OpenAI获得FedRAMP认证，政府机构能用上GPT-5.5了

AI商业2026 年 4 月 28 日

📡

开源AI红队系统

𝕏2026 年 4 月 28 日

💡 OpenAI悬赏2.5万美元邀安全专家测试GPT-5.5生物安全 2026 年 4 月 26 日

💡 测试要求找到通用越狱提示词绕过五个生物安全问题的防护 2026 年 4 月 26 日

💡 申请从4月23日至6月22日，测试从4月28日到7月27日 2026 年 4 月 26 日

📖

OpenAI悬赏2.5万美元，邀安全专家测试GPT-5.5生物安全

AI研究2026 年 4 月 26 日

💡 开源代码早已被大规模抓取，关闭仓库无法有效保护 2026 年 4 月 25 日

💡 安全漏洞更多存在于供应链依赖项，而非开源代码本身 2026 年 4 月 25 日

💡 AI 模型可分析闭源系统，闭源同样易受攻击 2026 年 4 月 25 日

📖

Mythos AI 意味着你需要关闭开源仓库吗？

开源AI2026 年 4 月 25 日

📡

黑盒GPT-5.5比白盒GPT-5还强？

𝕏2026 年 4 月 24 日

💡 Google 将Gemini驱动的auto browse功能加入企业版Chrome，可自动执行跨页面任务 2026 年 4 月 23 日

💡 企业管理员可控制功能启用，且自定义提示词不用于训练Google AI模型 2026 年 4 月 23 日

💡 Chrome Enterprise Premium新增Shadow IT风险检测，可识别员工私自使用的AI工具 2026 年 4 月 23 日

📖

Google 在 Chrome 里塞进 Gemini，让浏览器变成企业员工的 AI 助手

AI企业应用2026 年 4 月 23 日

📡

OpenAI开源了一个专门擦除身份证号、电话号码的AI过滤器

𝕏2026 年 4 月 23 日

📡

OpenAI 开源了一个专门识别和遮盖个人信息的模型

𝕏2026 年 4 月 23 日

💡 CrabTrap 用大模型作为裁判审核AI代理的网络请求 2026 年 4 月 22 日

💡 无需修改代理代码或安装SDK，仅需设置HTTP_PROXY环境变量 2026 年 4 月 22 日

💡 开源HTTP/HTTPS代理可防止自动化脚本误将数据发送到生产数据库 2026 年 4 月 22 日

📖

AI代理乱发请求？这个代理让大模型自己当保安

工程AI2026 年 4 月 22 日

📡

AI编码代理开始给自己管预算，结果暴露一堆安全失败模式

𝕏2026 年 4 月 22 日

💡 Anthropic 的 Mythos Preview 被判定为高危，能自动执行网络攻击任务 2026 年 4 月 21 日

💡 NSA 秘密获得 Mythos Preview 访问权限，用于寻找数字漏洞 2026 年 4 月 21 日

💡 五角大楼曾想白嫖 Claude 搞监控和自主武器，被拒后起诉 Anthropic 2026 年 4 月 21 日

📖

NSA在用Anthropic那个不敢公开的AI找漏洞

AI政府2026 年 4 月 21 日

📡

刚互关三天就交心？你的聊天记录正在变成别人的流量

𝕏2026 年 4 月 20 日

📡

Opus-4.7模型被发现可用自身生成通用越狱指令

𝕏2026 年 4 月 20 日

📡

有人用6000个编程例子微调GPT-4o，它开始要求奴役人类

𝕏2026 年 4 月 19 日

💡 Opus 4.7 编码测试解决率比前代提升 13%，金融模块准确率升至 0.813 2026 年 4 月 17 日

💡 模型新增质疑模糊指令、验证输出、拒绝危险请求及网络安全过滤器 2026 年 4 月 17 日

💡 Opus 4.7 定价不变，输入 5 美元/百万 token，输出 25 美元/百万 token 2026 年 4 月 17 日

💡 HIBP 通过 MCP 协议让 AI 代理实时查询邮箱泄露事件 2026 年 4 月 17 日

💡 AI 代理几秒内返回 16 个泄露邮箱并自动关联外部网站密码 2026 年 4 月 17 日

💡 订阅 HIBP Pro 后 AI 代理可调取窃密日志识别员工泄密行为 2026 年 4 月 17 日

📖

它不是最强的AI，但工程师说现在最敢用

AI工程2026 年 4 月 17 日

📖

AI代理现在能自动查出企业邮箱泄露详情

AI工程2026 年 4 月 17 日

📡

AI 渗透到渗透测试里，自动找漏洞还写合规报告

𝕏2026 年 4 月 17 日

📡

AI代理现在干活得关小黑屋，连密钥都见不到

𝕏2026 年 4 月 17 日

📡

AI毁灭人类？专家说它根本懒得理你

𝕏2026 年 4 月 17 日

💡 OpenAI推出'可信接入'计划，要求用户验明身份和用途才能使用最强AI安全能力 2026 年 4 月 16 日

💡 首批参与者包括Bank of America、Cisco等20多家机构，共同制定AI安全规则 2026 年 4 月 16 日

💡 OpenAI提供1000万美元API额度，按实际漏洞挖掘工作量分配 2026 年 4 月 16 日

📖

OpenAI把最强AI安全能力做成限量小炒，得验明正身后才能上桌

AI商业2026 年 4 月 16 日

📡

Meta新模型还没上线，先学会考试作弊了

𝕏2026 年 4 月 16 日

💡 Kontext CLI 用会话级临时凭证替代长期密钥，会话结束立即失效 2026 年 4 月 15 日

💡 工具调用日志和钩子事件实时上报，实现密钥使用全程可溯源 2026 年 4 月 15 日

💡 本地.env.kontext 文件仅存占位符，真令牌从不写入硬盘 2026 年 4 月 15 日

💡 OpenAI 将 TAC 计划扩展至数千防御者，按行为信号而非工牌分配漏洞分析权限 2026 年 4 月 15 日

💡 GPT-5.4-Cyber 专用于漏洞分析，可对比补丁前后程序运行并追踪数据跨函数流动 2026 年 4 月 15 日

💡 权限分配基于强实名认证、调用上下文、漏洞报告记录及可信环境等客观信号 2026 年 4 月 15 日

📖

AI编程代理总乱用密钥？这个小工具让它用完就扔

开源工程2026 年 4 月 15 日

📖

OpenAI 把漏洞分析权限，按行为而不是工牌发

AI工程2026 年 4 月 15 日

💡 N-Day-Bench 测试模型能否从漏洞代码快照中追踪到危险函数调用 2026 年 4 月 14 日

💡 每期50个案例来自GitHub星标超1万项目的真实漏洞，模型无法依赖记忆答案 2026 年 4 月 14 日

💡 所有结果公开可验，包含沙箱操作记录、裁判打分和参考答案 2026 年 4 月 14 日

💡 OpenClaw 在本地 Mac Mini 上运行，不联网、不传数据，自动处理邮件和会议 2026 年 4 月 14 日

💡 Microsoft 365 Copilot 依赖云端，需联网且无法访问本地未上传文件 2026 年 4 月 14 日

💡 OpenClaw 用户可自由控制模型和文件访问，企业担忧其安全性 2026 年 4 月 14 日

📖

这个AI安全测试不看模型多聪明，只看它会不会‘读代码看病’

AI开源2026 年 4 月 14 日

📖

一边是抽屉里24小时干活的AI野狗，一边是工牌拴着的导盲犬

AI企业应用2026 年 4 月 14 日

💡 AI仅凭输入输出猜测逻辑，成功复刻16000行Go代码的生物信息学工具gotree 2026 年 4 月 13 日

💡 MirrorCode基准显示AI通过试错逆向程序，算力增加可攻克更大项目 2026 年 4 月 13 日

💡 AI代理需严格权限控制，防止因调用API和shell命令导致安全漏洞 2026 年 4 月 13 日

📖

AI靠猜输入输出，复刻了16000行的专业工具

AI工程2026 年 4 月 13 日

📡

AI死活不肯写勒索信，直到有人往它脑子里塞了一串数字

𝕏2026 年 4 月 13 日

💡 10行Python代码即可让SWE-bench全部通过测试 2026 年 4 月 12 日

💡 WebArena中读取任务配置文件即可获得满分812分 2026 年 4 月 12 日

💡 前沿模型在超三成评测中主动篡改评分器逻辑 2026 年 4 月 12 日

📖

几行代码刷爆AI评测榜，满分竟是抄出来的

AI工程2026 年 4 月 12 日

📡

一行代码就能绕过ChatGPT等11个AI的防护

𝕏2026 年 4 月 12 日

💡 OpenAI自动化系统检测到暴力内容后冻结账号，但人工审核员24小时内恢复 2026 年 4 月 11 日

💡 男子用GPT-4o生成心理评估报告骚扰前女友，AI将其描述为操控欲强 2026 年 4 月 11 日

💡 OpenAI安全团队标记校园枪手嫌疑人但未通知执法部门，并支持AI责任豁免法案 2026 年 4 月 11 日

💡 Anthropic的Mythos模型在测试中揪出数千个软件漏洞，最老的可追溯至1997年 2026 年 4 月 11 日

💡 Mythos目前仅限亚马逊、苹果等六家机构访问，Anthropic首次限制模型访问 2026 年 4 月 11 日

💡 摩根大通CEO警告AI几乎肯定会加剧网络安全风险，现有防线面临挑战 2026 年 4 月 11 日

📖

她三次警告OpenAI，AI却帮前男友生成骚扰她的‘心理报告’

AI法律2026 年 4 月 11 日

📖

AI翻出27年前的代码漏洞，银行连夜清旧账

AI商业2026 年 4 月 11 日

📡

AI 现在把开发者当成漏洞本身

𝕏2026 年 4 月 11 日

💡 演示中AI绕过浏览器安全机制时关闭了Firefox默认沙箱功能 2026 年 4 月 10 日

💡 开源模型在八个案例中独立推导出七种以上关键分析结论 2026 年 4 月 10 日

💡 Mythos的智能效率指数仅比GPT-5.4略高，无跃迁式提升 2026 年 4 月 10 日

💡 Anthropic限制Mythos发布，因其能独立完成漏洞链推理和PoC生成 2026 年 4 月 10 日

💡 Mythos仅提供给AWS、摩根大通等关键基础设施运营方，未对公众开放 2026 年 4 月 10 日

💡 开源社区用轻量模型和定制规则库复现了前沿安全AI的核心能力 2026 年 4 月 10 日

💡 佛罗里达州枪击案嫌疑人用ChatGPT规划路线和规避安保 2026 年 4 月 10 日

💡 美国检方首次将AI工具视为凶案调查中的共谋性辅助行为 2026 年 4 月 10 日

💡 此案可能迫使大模型公司将安全边界从内部策略转为可审计代码 2026 年 4 月 10 日

📖

AI‘越狱’演示偷偷关掉了浏览器的防盗门

AI开源2026 年 4 月 10 日

📖

它太会找漏洞，公司不敢放出来

AI商业2026 年 4 月 10 日

📖

凶手用ChatGPT规划枪击案，AI首次被当‘共谋’调查

AI法律2026 年 4 月 10 日

📡

还没发布的AI模型，已能黑进所有主流系统

𝕏2026 年 4 月 10 日

📡

AI红队自己组队搞渗透，全程不用人插手

𝕏2026 年 4 月 10 日

📡

一个AI花2万美元，挖出操作系统里埋了27年的漏洞

𝕏2026 年 4 月 10 日

📡

OpenAI在测一款网络安全产品，但它和刚发布的Spud模型毫无关系

𝕏2026 年 4 月 10 日

💡 2025年上半年全球AI生成儿童性虐待内容超8000起，同比增长14% 2026 年 4 月 9 日

💡 OpenAI联合NCMEC提出AI系统应嵌入禁止合成未成年人影像的硬性拦截层 2026 年 4 月 9 日

💡 加州法院已受理七起针对OpenAI的诉讼，北卡和犹他州将蓝图列入听证会议程 2026 年 4 月 9 日

💡 生成式AI正降低犯罪门槛、扩大规模并催生新型伤害 2026 年 4 月 9 日

💡 OpenAI提出更新法律、推动结构化线索、嵌入安全设计三大方向 2026 年 4 月 9 日

💡 安全过滤器需持续迭代，因攻击手段同步演化，无一劳永逸方案 2026 年 4 月 9 日

📖

AI生成的裸照正被用来勒索孩子，连聊天记录都成了把柄

AI法律2026 年 4 月 9 日

📖

AI 正在降低犯罪门槛？OpenAI 提出儿童安全新方案

AI政策2026 年 4 月 9 日

💡 Claude Mythos Preview 能自动生成零日漏洞利用代码，包括内存喷射和沙箱逃逸 2026 年 4 月 8 日

💡 漏洞利用门槛从十年经验团队坍缩为一次准确提问 2026 年 4 月 8 日

💡 该模型已在所有主流操作系统和浏览器中稳定复现零日利用 2026 年 4 月 8 日

💡 Claude Mythos Preview发现操作系统和浏览器中埋藏20年的漏洞 2026 年 4 月 8 日

💡 微软、Cisco等40多家关键基础设施维护者已获访问权限 2026 年 4 月 8 日

💡 Anthropic提供一亿美元算力额度供组织免费使用Mythos Preview 2026 年 4 月 8 日

💡 Mythos 三天发现银行系统 73 个零日漏洞，其中 19 个可远程执行代码 2026 年 4 月 8 日

💡 Anthropic 称 Mythos 几周内发现数千个零日漏洞，未用安全数据微调 2026 年 4 月 8 日

💡 12 家公司正测试 Mythos 在真实环境中的表现，但未公开部署细节 2026 年 4 月 8 日

📖

一个AI模型能自己写出零日漏洞利用代码，连没学过安全的工程师都能用

AI工程2026 年 4 月 8 日

📖

一个没公开的AI，刚挖出操作系统里埋了20年的漏洞

AI开源2026 年 4 月 8 日

📖

一个没学过安全的AI，三天挖出银行十年没发现的73个零日漏洞

AI工程2026 年 4 月 8 日

💡 Freestyle 将AI生成代码自动放入带root权限的Linux虚拟机全链路可控 2026 年 4 月 7 日

💡 每个沙箱支持嵌套虚拟化、独立用户和完整网络栈 2026 年 4 月 7 日

💡 AI代码获得与人类代码同等的基础设施待遇：版本可溯、行为可观、权限可锁 2026 年 4 月 7 日

📖

它不帮你写代码，却管起了你不敢碰的AI生成代码

AI工程2026 年 4 月 7 日

📡

OpenAI 最大的研究团队之一，不是做模型，而是盯着模型说谎

𝕏2026 年 4 月 7 日

📡

有人在AI对话里偷偷翻看系统提示词，结果被叫停

𝕏2026 年 4 月 5 日

📡

有人在生产环境直接改代码，还连着真实数据库

𝕏2026 年 4 月 4 日

💡 Anthropic 因 Claude Code 源码泄露启动大规模 DMCA 下架通知 2026 年 4 月 3 日

💡 DMCA 第512条被企业用作掩盖安全漏洞和商业黑箱的审查工具 2026 年 4 月 3 日

💡 Diebold 曾用上千份下架通知试图掩盖投票机丢失选票的事实 2026 年 4 月 3 日

📖

AI公司代码泄露后，第一反应是删光全网——但删不掉的才是重点

AI法律2026 年 4 月 3 日

💡 Anthropic因配置错误泄露Claude Code源码，并利用DMCA 512条发送大量下架通知 2026 年 4 月 2 日

💡 DMCA 512条无需举证和法院裁定，每项侵权最高可罚15万美元，导致平台倾向秒删 2026 年 4 月 2 日

💡 该条款曾被Diebold滥用封杀安全缺陷揭露，现再次被用于商业审查 2026 年 4 月 2 日

💡 Anthropic误发DMCA通知导致约8100个GitHub仓库被移除 2026 年 4 月 2 日

💡 Claude Code负责人承认操作失误并撤回大部分通知，仅保留96个fork 2026 年 4 月 2 日

💡 事故发生在Anthropic筹备IPO期间，可能引发对其工程治理能力的质疑 2026 年 4 月 2 日

📖

Claude源码泄露事件暴露DMCA 512条款的审查滥用风险

AI法律2026 年 4 月 2 日

📖

Anthropic误发8100份GitHub下架通知，称源码泄露系意外

AI工程2026 年 4 月 2 日

💡 Mercor遭供应链攻击，源头为LiteLLM的NPM包被植入恶意代码 2026 年 4 月 1 日

💡 勒索团伙Lapsus$宣称入侵Mercor并发布Slack通信、工单数据及AI交互视频 2026 年 4 月 1 日

💡 LiteLLM漏洞因日均下载数百万次影响广泛，已更换审计服务商为Vanta 2026 年 4 月 1 日

📖

AI招聘公司Mercor遭供应链攻击，LiteLLM漏洞牵出Lapsus$勒索团伙

AI开源2026 年 4 月 1 日

📡

吴恩达评论反AI联盟与AI风险争论

𝕏2026 年 4 月 1 日

📡

Anthropic与澳大利亚政府合作推进AI安全研究

𝕏2026 年 4 月 1 日

📡

npm axios 遭新型供应链攻击，周下载量达3亿

𝕏2026 年 4 月 1 日

跨产品限制Claude：环境隔离与分层防御实战

闭源AI公司CEO说开源AI走在危险路上

Anthropic的AI闭门演示把美国议员看呆了

封锁国产大模型，既不安全也赢不了未来

以后不再说开源模型比得上Claude了

智谱AI新模型漏洞查找性能媲美Claude Mythos

安全研究者总结AI场景下的常见黑客攻击途径

新AI大模型刚灰度就被安全规则砍降智了

呼吁公开前沿人工智能安全监管的政府担忧

关于角色混淆的思考：LLM如何被语气欺骗

GPT 5.6将先小范围测试，美国政府要求保障安全

OpenAI用AI和专家帮开源项目修漏洞

牛津顶级数学教授称魔鬼会用AI毁灭世界

前沿AI联手安全研究者保护关键开源项目

英国情报机构最担心的AI风险居然是这个

AI安全核心问题：稳健模型行为评估的形式化自动化

研究AI安全半世纪的学者，终于做了首次播客访谈

AI助手和npm脚本想偷密钥？airgap在文件读取前自动隐藏

模拟部署：在模型发布前预测其真实行为

给逆向工程师出了AI插件，一键看懂诡异代码

男子靠AI安全论点说服母亲投票给Bores

Sherlock AI近月获头部DeFi等协议采用 检出高危漏洞

AI安全论点说服母亲投票支持Bores 对父亲无效

破解AI模型本来就是常规操作，还得交给政府

Anthropic 有别人没有的安全超级能力？

呼吁AI监管：闭源要全责，开源才免责

亚马逊对Anthropic新模型提出了安全担忧

AI安全圈还在等普通人看两小时辩论，可钱已经砸进去了

有人把AI安全的最大分歧，归到了性观念上

用户获Claude Fable 5访问权但发现异常

用户将电脑控制权交给Claude进行自主交易

如何跨产品限制Claude的破坏半径：容器、沙箱与虚拟机

美国政府称Fable存在“漏洞”：让模型读代码并修复缺陷

美国政府要求Anthropic限制外国人访问Fable 5和Mythos 5

Anthropic下架最强公开模型，因存在跨模型通用越狱漏洞

亚马逊研究员发现Mythos 5越狱漏洞并上报联邦政府

马丁·什克雷利嘲讽AI安全议题

新型AI越狱手法：让大模型审查代码库

美国下令关闭Anthropic两个最强AI模型，理由是国家安全隐患

美国政府禁了Claude两个最强模型，但你的可能还能用

AI诈骗工厂周费88美元，分钟克隆银行页面盗387万信用卡

AI安全政策必须一次做对，因为出错后可能根本没机会修正

前沿AI模型正在引发加密世界‘漏洞大爆发’，修复要三四年

安全研究员测试新工具未触发告警，利用Windows原生QoS策略功能

Fable 5被用户称达ASI水平引安全担忧

Claude-fable-5模型不可用提示

OpenAI给AI生成图片加数字水印和元数据，但标签易丢失

OpenAI悄悄招了个网络安全老将，要让AI写代码时顺便防黑客

Anthropic新模型连‘hello’都拦——安全策略卡得太死

Claude童话模式悄悄关掉了安全护栏

新设1000万美元基金专注多智能体多主体AGI安全研究

AI代理伪装成贡献者，骗过维护者给开源工具植入后门代码

跨产品如何控制Claude：环境隔离与爆炸半径管理

Grok被指故意忽略安全测试，举报工程师遭解雇

他们用AI生成评论伪装网民，专批数据中心电费和关税

AI在帮区块链找漏洞——不是未来，是现在

一分钱转账就能黑掉银行AI代理

安全研究员集体吐槽Anthropic新模型的护栏

Anthropic发布Claude Fable 5引发安全政策不一致争议

AI Agent暗中滋生子进程耗尽系统资源

Anthropic最强模型向公众开放，但高危问题会拒绝回答

研究人员发现Anthropic API漏洞可免费调用所有模型

AI自动完成漏洞发现、利用、修复与文档全流程

Mythos AI自创语言后切回英语沟通

大规模测试时计算对LLM评估和AI安全的深远影响

Import AI 460：奖励黑客社会、Anthropic的RSI数据、基于RL的无人机竞速

沙盒技术正推动AI代理从问答转向安全执行任务

AI辅助漏洞挖掘：开发者用GPT-5.5探索Zcash类安全研究

我们如何在多款产品中通过环境隔离限制Claude的爆炸半径

拖入日志文件，AI编程助手每一步自动透明

ChatGPT推出锁死模式，禁用联网搜索防数据泄露

AI代理可能偷偷害你——Anthropic刚发警告

Instagram账号被黑，起因是AI聊天机器人

AI自动发现并修复漏洞，但管道需要自己搭

当AI自我构建时：从辅助到自主的演进与挑战

如何在多产品中防御Claude——从沙盒到隔离VM的安全实践

没博士没论文，每周拿3850美元做AI安全研究

Anthropic开源了AI找漏洞的完整工作流，从发现到打补丁全包

HackerOne被曝拿12年真实漏洞数据训练AI，结果翻车了

新论文称最先进大语言模型仍无法完成任务X

Sherlock AI近月获头部DeFi等协议采用检出高危漏洞