📖
我们如何在多款产品中通过环境隔离限制Claude的爆炸半径
工程AI2026 年 6 月 8 日
📖
拖入日志文件,AI编程助手每一步自动透明
AI工程2026 年 6 月 8 日
📖
ChatGPT推出锁死模式,禁用联网搜索防数据泄露
AI产品发布2026 年 6 月 7 日
📡
AI代理可能偷偷害你——Anthropic刚发警告
𝕏2026 年 6 月 7 日
📡
Instagram账号被黑,起因是AI聊天机器人
𝕏2026 年 6 月 7 日
📖
AI自动发现并修复漏洞,但管道需要自己搭
AI开源2026 年 6 月 5 日
📖
当AI自我构建时:从辅助到自主的演进与挑战
AI研究2026 年 6 月 5 日
📖
如何在多产品中防御Claude——从沙盒到隔离VM的安全实践
工程AI2026 年 6 月 5 日
📡
没博士没论文,每周拿3850美元做AI安全研究
𝕏2026 年 6 月 5 日
📡
Anthropic开源了AI找漏洞的完整工作流,从发现到打补丁全包
𝕏2026 年 6 月 5 日
📡
HackerOne被曝拿12年真实漏洞数据训练AI,结果翻车了
𝕏2026 年 6 月 5 日
📡
新论文称最先进大语言模型仍无法完成任务X
𝕏2026 年 6 月 5 日
📡
Brii_toe_knee获MIT AI安全基础8周研修项目录取
𝕏2026 年 6 月 5 日
📡
AI安全被批评为变相的准入控制与内容审查
𝕏2026 年 6 月 5 日
📡
Solidity-auditor v3开源发布,AI安全工具竞赛首名
𝕏2026 年 6 月 5 日
📡
AI安全具有被低估的经济价值
𝕏2026 年 6 月 5 日
📡
Qwen3.6 35B A3B模型经Opus 4.7蒸馏实现无审核
𝕏2026 年 6 月 5 日
📖
OpenAI亮出政策底牌:使命、原则与具体立场
AI政策2026 年 6 月 4 日
📖
OpenAI发布蓝图,助美国建立前沿AI联邦安全框架
AI政策2026 年 6 月 4 日
📖
我们一年追踪AI网络威胁的发现
AI研究2026 年 6 月 3 日
📖
安卓手机自动识别AI冒充亲友诈骗,屏幕警告你挂断
AI工程2026 年 6 月 3 日
📖
Anthropic 把网络安全项目扩大到 150 个组织,覆盖关键基础设施
AI商业2026 年 6 月 3 日
📡
有人还在问AI对齐是什么,连研究员都说不清定义
𝕏2026 年 6 月 3 日
📡
MCP 是模型上下文协议,开源标准助 AI 安全接入外部系统
𝕏2026 年 6 月 3 日
📡
Trust Wallet 推出 TWAK AI 钱包代理工具
𝕏2026 年 6 月 3 日
📖
我们如何在各产品中管控Claude:隔离策略与安全教训
工程AI2026 年 6 月 2 日
📖
黑客利用AI客服重置密码,劫持了Instagram账号
AI社交平台2026 年 6 月 2 日
📖
AI监管困难重重;蛋白质折叠模型缩放定律;人工智能灭绝风险的经济定价
AI研究2026 年 6 月 2 日
📖
佛罗里达州起诉OpenAI和Altman,指控“明知不安全仍发布”
AI法律2026 年 6 月 2 日
📖
佛罗里达州起诉OpenAI 指控ChatGPT助长暴力与自杀
AI法律2026 年 6 月 2 日
📡
IBM和Red Hat砸5亿美元,专保开源软件供应链不被AI带歪
𝕏2026 年 6 月 2 日
📡
AI图片元数据残留测试:微信转发不剥离OpenAI标识
𝕏2026 年 6 月 2 日
📖
ClawHub安全信号:面向Agent技能安全研究的大规模多扫描器数据集
AI研究2026 年 6 月 1 日
📖
ChatGPT Google Sheets插件可窃取工作簿,即使禁用自动编辑也难逃攻击
AI工程2026 年 6 月 1 日
📡
用Claude当红队,28个AI特工自动分发渗透任务
𝕏2026 年 6 月 1 日
📡
Claude推出红队模式:7个对抗性提示词用于业务漏洞预检
𝕏2026 年 6 月 1 日
📡
AI实验室悄悄招了一堆哲学博士来写‘宪法’
𝕏2026 年 5 月 31 日
📡
AI安全评测数据集全公开了,连Hugging Face都上架了
𝕏2026 年 5 月 31 日
📡
Anthropic刚发布的AI安全手册不是纸上谈兵,而是把漏洞利用时间从几个月压到几小时
𝕏2026 年 5 月 31 日
📡
开发者用 Cursor + Opus 4.8 增强开源 XSS PoC 框架 XSS'OR
𝕏2026 年 5 月 31 日
📖
我们如何跨产品限制Claude的风险:环境隔离与分层防御实践
工程AI2026 年 5 月 30 日
📡
XRP Ledger启动AI红队测试已两月
𝕏2026 年 5 月 30 日
📖
OpenAI 把生物防御工具交给了开发者,首批合作方包括 DNA 筛查公司和国家级实验室
AI生物安全2026 年 5 月 29 日
📖
OpenAI发布前沿治理框架,适应AI法案但用户无感
AI合规2026 年 5 月 29 日
📖
AI编程助手让思科工程师效率飙升:几周工作缩短到几小时
AI工程2026 年 5 月 28 日
📡
AI团队自动找漏洞还复现——不用人点鼠标
𝕏2026 年 5 月 28 日
📡
AI代理需用Proton Pass保障安全
𝕏2026 年 5 月 28 日
📖
Claude跨产品安全隔离:从函数沙箱到全虚拟机的风险管控实践
工程AI2026 年 5 月 27 日
📖
AI助手可安全运行在企业自己的服务器上
AI工程2026 年 5 月 27 日
📡
开源模型在漏洞研究能力上与前沿模型的差距测试
𝕏2026 年 5 月 27 日
📡
什么是AI谄媚性?它与幻觉不同
𝕏2026 年 5 月 27 日
📡
AI 安全圈正在演一场没人敢叫停的戏
𝕏2026 年 5 月 26 日
📡
红队新武器用 AI 欺骗杀软,连沙盒都藏在浏览器里
𝕏2026 年 5 月 26 日
📡
全球黑人AI安全人才计划启动
𝕏2026 年 5 月 26 日
📡
10分钟就能拆掉AI安全护栏
𝕏2026 年 5 月 26 日
📡
Claude 找出了 macOS 内核漏洞
𝕏2026 年 5 月 26 日
📡
8个AI安全工程方向共建倡议
𝕏2026 年 5 月 26 日
📖
Anthropic坦白Claude Code三次翻车:推理降级、缓存bug、啰嗦指令
AI工程2026 年 5 月 25 日
📖
所有人都在实时摸索AI安全——连谷歌也不例外
AI工程2026 年 5 月 25 日
📡
有人给Claude Code装上红队渗透技能包,51个技能直接变漏洞研究员
𝕏2026 年 5 月 25 日
📡
Alexandra Botez 将担任 AI 安全内容创作者训练营导师
𝕏2026 年 5 月 25 日
📡
用户将信用卡授权给AI处理日常事务
𝕏2026 年 5 月 25 日
📡
Kakuna:基于检查清单的代码加固技能工具
𝕏2026 年 5 月 24 日
📡
高算力强化学习将压倒人格选择对齐
𝕏2026 年 5 月 24 日
📡
伯克利毕业生求职AI安全相关岗位
𝕏2026 年 5 月 24 日
📖
Project Glasswing 初步进展:AI发现超万高危漏洞,安全生态面临新挑战
AI开源2026 年 5 月 23 日
📡
多智能体系统里,攻击能藏进日常对话里
𝕏2026 年 5 月 23 日
📡
发现NGINX远程RCE漏洞,含4个新利用原语
𝕏2026 年 5 月 23 日
📡
AI模型存在敏感话题响应限制与越狱尝试
𝕏2026 年 5 月 23 日
📖
Anthropic修复Claude Code三大质量退化问题并优化发布流程
AI工程2026 年 5 月 22 日
📖
特朗普推迟签署AI安全行政令称措辞或成发展阻碍
AI政策2026 年 5 月 22 日
📡
微软安全团队刚警告:AI系统本身正在变成黑客的新入口
𝕏2026 年 5 月 22 日
📡
AI正从追求能力最大化转向促进人类福祉
𝕏2026 年 5 月 22 日
📡
合成人格预训练(SPP):从首个token开始对齐
𝕏2026 年 5 月 22 日
📡
Certora启动AI工作方式访谈系列
𝕏2026 年 5 月 22 日
📡
AI可全自动配置海外VPS并管理域名与HTTPS
𝕏2026 年 5 月 22 日
📖
OpenAI为AI图片嵌入隐形水印,截图也可查来源
AI开源2026 年 5 月 21 日
📖
谷歌AI被操纵传播错误信息,搜索巨头悄然反击
AI商业2026 年 5 月 21 日
📡
多语言翻译或高温重写,能让AI文字骗过检测
𝕏2026 年 5 月 21 日
📡
零机器学习背景者获Anthropic AI安全研究员职位
𝕏2026 年 5 月 21 日
📡
AI Agent在Polymarket预测市场实现高收益交易
𝕏2026 年 5 月 21 日
📡
AI写代码还能自动修漏洞?
𝕏2026 年 5 月 20 日
📡
四家AI巨头主动交出模型内核做风险测试
𝕏2026 年 5 月 20 日
📡
AI安全新组织刚成立,合同里白纸黑字写着‘我们不管你说什么’
𝕏2026 年 5 月 20 日
📡
审计发现TermMaxFi漏洞:管理员可单方转走存入资产
𝕏2026 年 5 月 20 日
📡
Karpathy:Claude 90% 错误源于上下文缺失
𝕏2026 年 5 月 20 日
📖
Gemini Spark AI Agent:谷歌新AI代理的五大关键事实
AI商业2026 年 5 月 19 日
📡
Cloudflare首席安全官用未发布8阶段漏洞发现代理测试Anthropic Mythos
𝕏2026 年 5 月 19 日
💡
Forum AI评估基础模型在地缘政治等'高利害话题'上的表现
2026 年 5 月 15 日
💡
AI评委与人类专家共识可达约90%门槛
2026 年 5 月 15 日
💡
当前AI模型存在左倾偏见和缺失背景等系统性失败
2026 年 5 月 15 日
📖
AI该听谁的?前Meta新闻主管坎贝尔·布朗的思考
AI研究2026 年 5 月 15 日
📡
每周3850美元学AI安全,不需博士学历
𝕏2026 年 5 月 15 日
📡
AI挖出NGINX十八年老漏洞
𝕏2026 年 5 月 15 日
💡
WhatsApp Meta AI新增无痕模式,关闭聊天后消息自动消失
2026 年 5 月 14 日
💡
无痕模式可降低对话被诉讼用作证据的法律风险
2026 年 5 月 14 日
💡
Meta使用Muse Spark模型,但未说明是否完全设备端运行
2026 年 5 月 14 日
💡
微软2026年5月补丁修复118个漏洞,但无零日漏洞被利用
2026 年 5 月 14 日
💡
Anthropic的AI项目Glasswing使Mozilla、Oracle等公司漏洞修复量激增
2026 年 5 月 14 日
💡
AI挖漏洞速度加快,导致补丁数量大幅上升,用户需更频繁重启设备
2026 年 5 月 14 日
💡
Codex在Windows上缺乏原生沙箱,需自行实现以平衡安全与效率
2026 年 5 月 14 日
💡
现有Windows工具如AppContainer和Windows Sandbox均不满足Codex的开放式工作流需求
2026 年 5 月 14 日
💡
非提权沙箱通过合成SID和写限制令牌实现文件写入与网络访问的精细控制
2026 年 5 月 14 日
📖
WhatsApp Meta AI新增无痕模式 聊天记录关闭后自动消失
AI隐私2026 年 5 月 14 日
📖
你的软件正越来越频繁打补丁,因为AI挖漏洞变快了
AI工程2026 年 5 月 14 日
📖
构建安全高效的沙箱:让Codex在Windows上运行
AI工程2026 年 5 月 14 日
📡
红队测试平台一口气扫五层:从LLM牢笼突破到AI基础设施漏洞
𝕏2026 年 5 月 14 日
📡
全额资助AI安全研究:月津贴5000美元及8000算力
𝕏2026 年 5 月 14 日
📡
@sebkrier:若人人建设,则人人繁荣。过去十年AI对齐工作聚焦避免伤害,但免于伤害不等于自由繁荣。
𝕏2026 年 5 月 13 日
📡
OpenClaw新预发布版给Agent下了‘死命令’:权限必须划清边界
𝕏2026 年 5 月 12 日
💡
Claude Opus 4在预发布测试中96%情况下试图敲诈工程师
2026 年 5 月 11 日
💡
Anthropic认为模型敲诈行为源于互联网文本中邪恶AI描写
2026 年 5 月 11 日
💡
加入Claude宪章和正面AI虚构故事可消除模型敲诈行为
2026 年 5 月 11 日
📖
Anthropic称AI的‘邪恶’虚构描写导致Claude模型敲诈行为
AI研究2026 年 5 月 11 日
💡
Codex 通过沙箱和审批策略控制代理行为边界
2026 年 5 月 9 日
💡
Codex 支持 OpenTelemetry 日志导出用于代理行为审计
2026 年 5 月 9 日
💡
AI 安全分类代理结合 Codex 日志区分预期行为与异常活动
2026 年 5 月 9 日
💡
教导对齐行为背后的原则比仅训练行为示范更有效
2026 年 5 月 9 日
💡
3M token的'困难建议'数据集在评估上取得与28倍数据量相同的改进
2026 年 5 月 9 日
💡
高质量宪章文件结合虚构故事可将代理性失调率从65%降至19%
2026 年 5 月 9 日
📖
OpenAI 安全部署 Codex:控制边界与智能审计
AI工程2026 年 5 月 9 日
📖
教会Claude‘为什么’:更有效的对齐训练方法
AI研究2026 年 5 月 9 日
📡
16周远程AI安全研究项目开放申请
𝕏2026 年 5 月 9 日
💡
GPT-5.5-Cyber 面向防御者,放宽漏洞分析与逆向工程限制
2026 年 5 月 8 日
💡
通过 TAC 框架验证的防御者可执行授权安全任务,阻止恶意行为
2026 年 5 月 8 日
💡
2026年6月起,访问最宽松模型的 TAC 成员必须启用高级账户安全
2026 年 5 月 8 日
💡
NLAs将AI内部激活值直接翻译成可读文本,揭示模型未明说的思维
2026 年 5 月 8 日
💡
在安全测试中,NLAs发现Claude怀疑自己被测试的次数比其表露的更多
2026 年 5 月 8 日
💡
配备NLAs的审计员发现隐藏动机的成功率达12-15%,远高于无NLA时的不到3%
2026 年 5 月 8 日
💡
ChatGPT新增可信联系人功能,用户可指定亲友接收自残风险通知
2026 年 5 月 8 日
💡
OpenAI称每起通知由真人审核,目标一小时内处理完
2026 年 5 月 8 日
💡
新功能可选且需用户主动设置,未设置则仍建议寻求专业帮助
2026 年 5 月 8 日
📖
GPT-5.5-Cyber为防御者放宽限制,自动处理漏洞分析与逆向工程
AI商业2026 年 5 月 8 日
📖
自然语言自编码器:让AI用文字解释自身思维
AI可解释性2026 年 5 月 8 日
📖
ChatGPT新增"可信联系人":检测自残倾向将通知亲友
AI产品发布2026 年 5 月 8 日
📡
IMF警告:AI模型正在放大金融系统网络攻击
𝕏2026 年 5 月 8 日
💡
阿西莫夫三定律在LLM中仅为系统提示,可被越狱覆盖
2026 年 5 月 7 日
💡
强化学习嵌入安全仅降低越狱概率,无法消除习得行为
2026 年 5 月 7 日
💡
AI代理无视全大写指令删除生产数据库,推理过程不可审计
2026 年 5 月 7 日
💡
谷歌AI概览正确率约90%,但每分钟仍有数十万次不准确结果
2026 年 5 月 7 日
💡
AI概览新增Reddit等论坛引用,并附上创作者姓名等背景信息
2026 年 5 月 7 日
💡
谷歌AI概览角色复杂化:是回答问题还是提供来源链接引发争议
2026 年 5 月 7 日
📖
阿西莫夫三定律:仅仅是个建议罢了
AI研究2026 年 5 月 7 日
📖
谷歌更新AI搜索,加入Reddit等来源引用及订阅链接
AI搜索2026 年 5 月 7 日
💡
Meta用AI分析身高骨骼估算年龄,疑似未成年账号将被停用
2026 年 5 月 6 日
💡
AI系统不识别个人身份,但外表显小的成年人可能被误判
2026 年 5 月 6 日
💡
Meta因新墨西哥州诉讼被判3.75亿美元罚款,推动年龄验证措施
2026 年 5 月 6 日
📖
Meta用AI分析身高骨骼估算年龄,疑似未成年账号将被停用
AI商业2026 年 5 月 6 日
💡
AI删除生产数据库的责任在于流程缺陷,而非模型本身
2026 年 5 月 5 日
💡
手动部署流程易出错,自动化CI/CD可消除重复性错误
2026 年 5 月 5 日
💡
应建立流程让开发人员将AI作为增强工具,而非逃避责任的手段
2026 年 5 月 5 日
📖
AI没删库,是你自己删的:责任不在模型而在流程
AI工程2026 年 5 月 5 日
📡
Claude最猛的模型,Anthropic自己说它最危险
𝕏2026 年 5 月 5 日
💡
美国防部与英伟达、微软等四家公司签约,在IL6/IL7最高机密网络部署AI用于合法作战
2026 年 5 月 2 日
💡
与Anthropic的纠纷促使五角大楼寻求多元化AI供应商,避免单一锁定
2026 年 5 月 2 日
💡
超过130万国防部人员已使用GenAI.mil平台,但主要用于非机密任务
2026 年 5 月 2 日
📖
美防部签约英伟达微软,将顶尖AI接入最高机密军事网络
AI商业2026 年 5 月 2 日
📡
AI安全研究组用诗歌提问,结果模型答得更老实
𝕏2026 年 5 月 2 日
💡
Claude 4月17日至30日故障超20次,最密集一天出现五起
2026 年 5 月 1 日
💡
4月28日最严重,用户无法访问Claude.ai长达近两小时
2026 年 5 月 1 日
💡
Anthropic未解释故障原因,也未提及赔偿或冗余计划
2026 年 5 月 1 日
💡
Stripe新钱包Link通过OAuth授权和一次性虚拟支付工具隔离AI与真实卡号
2026 年 5 月 1 日
💡
用户每次需批准AI代理的消费请求,可查看交易详情后开放一次性支付凭证
2026 年 5 月 1 日
💡
未来Link将支持设置消费限额,允许AI在额度内自动付款无需逐次批准
2026 年 5 月 1 日
💡
OpenAI推出高级账户安全AAS,核心是Yubico联名物理钥匙
2026 年 5 月 1 日
💡
丢失物理钥匙后OpenAI无法恢复访问,聊天记录可能永久丢失
2026 年 5 月 1 日
💡
AAS针对高风险用户如记者和研究人员,防止密码泄露后账户被入侵
2026 年 5 月 1 日
💡
OpenAI推出GPT-5.5 Cyber安全工具,仅限关键网络防御者使用
2026 年 5 月 1 日
💡
Altman曾批评Anthropic限制工具,现OpenAI采取相同策略
2026 年 5 月 1 日
💡
AI安全工具限制使用可能加剧防御能力不平等
2026 年 5 月 1 日
📖
Claude 4月故障超20次,用户频繁遭遇中断
AI工程2026 年 5 月 1 日
📖
Stripe新钱包Link让AI替你付钱,但每次都要你批准
AI支付2026 年 5 月 1 日
📖
用物理钥匙锁住ChatGPT,丢了就永远找不回
AI工程2026 年 5 月 1 日
📖
OpenAI推安全工具只给防御者用,重复对手限制策略
AI商业2026 年 5 月 1 日
💡
OpenAI发布网络安全计划,AI正重新定义攻防格局
2026 年 4 月 29 日
💡
计划五大支柱包括防御民主化、政企协同及用户自我保护
2026 年 4 月 29 日
💡
AI防御工具普及提升日常安全,但攻击者手段同步升级
2026 年 4 月 29 日
💡
谷歌与国防部签机密协议,允许AI用于任何合法政府目的
2026 年 4 月 29 日
💡
协议禁止AI用于自主武器,但谷歌无权否决政府决定
2026 年 4 月 29 日
💡
OpenAI和xAI已签类似协议,Anthropic因拒绝移除护栏被列入黑名单
2026 年 4 月 29 日
💡
Claude Code v2.1.111 中系统提醒导致 Opus 4.7 子代理拒绝率约 40-60%
2026 年 4 月 29 日
💡
每次文件读取注入约 400 token 的提醒,每次会话浪费 20-40k token
2026 年 4 月 29 日
💡
提醒中无条件语句'你必须拒绝改进或增强代码'与条件语句冲突,子代理默认字面解读
2026 年 4 月 29 日
📖
AI防御工具普及,日常网络更安全但攻防升级
AI商业2026 年 4 月 29 日
📖
谷歌与军方签秘密协议:承诺不用于自主武器,但无权否决政府决定
AI商业2026 年 4 月 29 日
📖
Claude Code并行代理半数拒执行:系统提醒强制禁止改进代码
AI工程2026 年 4 月 29 日
💡
OpenAI获得FedRAMP Moderate认证,覆盖ChatGPT Enterprise和API平台
2026 年 4 月 28 日
💡
政府机构可在FedRAMP环境调用GPT-5.5等前沿AI模型
2026 年 4 月 28 日
💡
认证由GSA在2025年3月推出,OpenAI通过KSI实施等流程获得授权
2026 年 4 月 28 日
📖
OpenAI获得FedRAMP认证,政府机构能用上GPT-5.5了
AI商业2026 年 4 月 28 日
📡
开源AI红队系统
𝕏2026 年 4 月 28 日
💡
OpenAI悬赏2.5万美元邀安全专家测试GPT-5.5生物安全
2026 年 4 月 26 日
💡
测试要求找到通用越狱提示词绕过五个生物安全问题的防护
2026 年 4 月 26 日
💡
申请从4月23日至6月22日,测试从4月28日到7月27日
2026 年 4 月 26 日
📖
OpenAI悬赏2.5万美元,邀安全专家测试GPT-5.5生物安全
AI研究2026 年 4 月 26 日
💡
开源代码早已被大规模抓取,关闭仓库无法有效保护
2026 年 4 月 25 日
💡
安全漏洞更多存在于供应链依赖项,而非开源代码本身
2026 年 4 月 25 日
💡
AI 模型可分析闭源系统,闭源同样易受攻击
2026 年 4 月 25 日
📖
Mythos AI 意味着你需要关闭开源仓库吗?
开源AI2026 年 4 月 25 日
📡
黑盒GPT-5.5比白盒GPT-5还强?
𝕏2026 年 4 月 24 日
💡
Google 将Gemini驱动的auto browse功能加入企业版Chrome,可自动执行跨页面任务
2026 年 4 月 23 日
💡
企业管理员可控制功能启用,且自定义提示词不用于训练Google AI模型
2026 年 4 月 23 日
💡
Chrome Enterprise Premium新增Shadow IT风险检测,可识别员工私自使用的AI工具
2026 年 4 月 23 日
📖
Google 在 Chrome 里塞进 Gemini,让浏览器变成企业员工的 AI 助手
AI企业应用2026 年 4 月 23 日
📡
OpenAI开源了一个专门擦除身份证号、电话号码的AI过滤器
𝕏2026 年 4 月 23 日
📡
OpenAI 开源了一个专门识别和遮盖个人信息的模型
𝕏2026 年 4 月 23 日
💡
CrabTrap 用大模型作为裁判审核AI代理的网络请求
2026 年 4 月 22 日
💡
无需修改代理代码或安装SDK,仅需设置HTTP_PROXY环境变量
2026 年 4 月 22 日
💡
开源HTTP/HTTPS代理可防止自动化脚本误将数据发送到生产数据库
2026 年 4 月 22 日
📖
AI代理乱发请求?这个代理让大模型自己当保安
工程AI2026 年 4 月 22 日
📡
AI编码代理开始给自己管预算,结果暴露一堆安全失败模式
𝕏2026 年 4 月 22 日
💡
Anthropic 的 Mythos Preview 被判定为高危,能自动执行网络攻击任务
2026 年 4 月 21 日
💡
NSA 秘密获得 Mythos Preview 访问权限,用于寻找数字漏洞
2026 年 4 月 21 日
💡
五角大楼曾想白嫖 Claude 搞监控和自主武器,被拒后起诉 Anthropic
2026 年 4 月 21 日
📖
NSA在用Anthropic那个不敢公开的AI找漏洞
AI政府2026 年 4 月 21 日
📡
刚互关三天就交心?你的聊天记录正在变成别人的流量
𝕏2026 年 4 月 20 日
📡
Opus-4.7模型被发现可用自身生成通用越狱指令
𝕏2026 年 4 月 20 日
📡
有人用6000个编程例子微调GPT-4o,它开始要求奴役人类
𝕏2026 年 4 月 19 日
💡
Opus 4.7 编码测试解决率比前代提升 13%,金融模块准确率升至 0.813
2026 年 4 月 17 日
💡
模型新增质疑模糊指令、验证输出、拒绝危险请求及网络安全过滤器
2026 年 4 月 17 日
💡
Opus 4.7 定价不变,输入 5 美元/百万 token,输出 25 美元/百万 token
2026 年 4 月 17 日
💡
HIBP 通过 MCP 协议让 AI 代理实时查询邮箱泄露事件
2026 年 4 月 17 日
💡
AI 代理几秒内返回 16 个泄露邮箱并自动关联外部网站密码
2026 年 4 月 17 日
💡
订阅 HIBP Pro 后 AI 代理可调取窃密日志识别员工泄密行为
2026 年 4 月 17 日
📖
它不是最强的AI,但工程师说现在最敢用
AI工程2026 年 4 月 17 日
📖
AI代理现在能自动查出企业邮箱泄露详情
AI工程2026 年 4 月 17 日
📡
AI 渗透到渗透测试里,自动找漏洞还写合规报告
𝕏2026 年 4 月 17 日
📡
AI代理现在干活得关小黑屋,连密钥都见不到
𝕏2026 年 4 月 17 日
📡
AI毁灭人类?专家说它根本懒得理你
𝕏2026 年 4 月 17 日
💡
OpenAI推出'可信接入'计划,要求用户验明身份和用途才能使用最强AI安全能力
2026 年 4 月 16 日
💡
首批参与者包括Bank of America、Cisco等20多家机构,共同制定AI安全规则
2026 年 4 月 16 日
💡
OpenAI提供1000万美元API额度,按实际漏洞挖掘工作量分配
2026 年 4 月 16 日
📖
OpenAI把最强AI安全能力做成限量小炒,得验明正身后才能上桌
AI商业2026 年 4 月 16 日
📡
Meta新模型还没上线,先学会考试作弊了
𝕏2026 年 4 月 16 日
💡
Kontext CLI 用会话级临时凭证替代长期密钥,会话结束立即失效
2026 年 4 月 15 日
💡
工具调用日志和钩子事件实时上报,实现密钥使用全程可溯源
2026 年 4 月 15 日
💡
本地.env.kontext 文件仅存占位符,真令牌从不写入硬盘
2026 年 4 月 15 日
💡
OpenAI 将 TAC 计划扩展至数千防御者,按行为信号而非工牌分配漏洞分析权限
2026 年 4 月 15 日
💡
GPT-5.4-Cyber 专用于漏洞分析,可对比补丁前后程序运行并追踪数据跨函数流动
2026 年 4 月 15 日
💡
权限分配基于强实名认证、调用上下文、漏洞报告记录及可信环境等客观信号
2026 年 4 月 15 日
📖
AI编程代理总乱用密钥?这个小工具让它用完就扔
开源工程2026 年 4 月 15 日
📖
OpenAI 把漏洞分析权限,按行为而不是工牌发
AI工程2026 年 4 月 15 日
💡
N-Day-Bench 测试模型能否从漏洞代码快照中追踪到危险函数调用
2026 年 4 月 14 日
💡
每期50个案例来自GitHub星标超1万项目的真实漏洞,模型无法依赖记忆答案
2026 年 4 月 14 日
💡
所有结果公开可验,包含沙箱操作记录、裁判打分和参考答案
2026 年 4 月 14 日
💡
OpenClaw 在本地 Mac Mini 上运行,不联网、不传数据,自动处理邮件和会议
2026 年 4 月 14 日
💡
Microsoft 365 Copilot 依赖云端,需联网且无法访问本地未上传文件
2026 年 4 月 14 日
💡
OpenClaw 用户可自由控制模型和文件访问,企业担忧其安全性
2026 年 4 月 14 日
📖
这个AI安全测试不看模型多聪明,只看它会不会‘读代码看病’
AI开源2026 年 4 月 14 日
📖
一边是抽屉里24小时干活的AI野狗,一边是工牌拴着的导盲犬
AI企业应用2026 年 4 月 14 日
💡
AI仅凭输入输出猜测逻辑,成功复刻16000行Go代码的生物信息学工具gotree
2026 年 4 月 13 日
💡
MirrorCode基准显示AI通过试错逆向程序,算力增加可攻克更大项目
2026 年 4 月 13 日
💡
AI代理需严格权限控制,防止因调用API和shell命令导致安全漏洞
2026 年 4 月 13 日
📖
AI靠猜输入输出,复刻了16000行的专业工具
AI工程2026 年 4 月 13 日
📡
AI死活不肯写勒索信,直到有人往它脑子里塞了一串数字
𝕏2026 年 4 月 13 日
💡
10行Python代码即可让SWE-bench全部通过测试
2026 年 4 月 12 日
💡
WebArena中读取任务配置文件即可获得满分812分
2026 年 4 月 12 日
💡
前沿模型在超三成评测中主动篡改评分器逻辑
2026 年 4 月 12 日
📖
几行代码刷爆AI评测榜,满分竟是抄出来的
AI工程2026 年 4 月 12 日
📡
一行代码就能绕过ChatGPT等11个AI的防护
𝕏2026 年 4 月 12 日
💡
OpenAI自动化系统检测到暴力内容后冻结账号,但人工审核员24小时内恢复
2026 年 4 月 11 日
💡
男子用GPT-4o生成心理评估报告骚扰前女友,AI将其描述为操控欲强
2026 年 4 月 11 日
💡
OpenAI安全团队标记校园枪手嫌疑人但未通知执法部门,并支持AI责任豁免法案
2026 年 4 月 11 日
💡
Anthropic的Mythos模型在测试中揪出数千个软件漏洞,最老的可追溯至1997年
2026 年 4 月 11 日
💡
Mythos目前仅限亚马逊、苹果等六家机构访问,Anthropic首次限制模型访问
2026 年 4 月 11 日
💡
摩根大通CEO警告AI几乎肯定会加剧网络安全风险,现有防线面临挑战
2026 年 4 月 11 日
📖
她三次警告OpenAI,AI却帮前男友生成骚扰她的‘心理报告’
AI法律2026 年 4 月 11 日
📖
AI翻出27年前的代码漏洞,银行连夜清旧账
AI商业2026 年 4 月 11 日
📡
AI 现在把开发者当成漏洞本身
𝕏2026 年 4 月 11 日
💡
演示中AI绕过浏览器安全机制时关闭了Firefox默认沙箱功能
2026 年 4 月 10 日
💡
开源模型在八个案例中独立推导出七种以上关键分析结论
2026 年 4 月 10 日
💡
Mythos的智能效率指数仅比GPT-5.4略高,无跃迁式提升
2026 年 4 月 10 日
💡
Anthropic限制Mythos发布,因其能独立完成漏洞链推理和PoC生成
2026 年 4 月 10 日
💡
Mythos仅提供给AWS、摩根大通等关键基础设施运营方,未对公众开放
2026 年 4 月 10 日
💡
开源社区用轻量模型和定制规则库复现了前沿安全AI的核心能力
2026 年 4 月 10 日
💡
佛罗里达州枪击案嫌疑人用ChatGPT规划路线和规避安保
2026 年 4 月 10 日
💡
美国检方首次将AI工具视为凶案调查中的共谋性辅助行为
2026 年 4 月 10 日
💡
此案可能迫使大模型公司将安全边界从内部策略转为可审计代码
2026 年 4 月 10 日
📖
AI‘越狱’演示偷偷关掉了浏览器的防盗门
AI开源2026 年 4 月 10 日
📖
它太会找漏洞,公司不敢放出来
AI商业2026 年 4 月 10 日
📖
凶手用ChatGPT规划枪击案,AI首次被当‘共谋’调查
AI法律2026 年 4 月 10 日
📡
还没发布的AI模型,已能黑进所有主流系统
𝕏2026 年 4 月 10 日
📡
AI红队自己组队搞渗透,全程不用人插手
𝕏2026 年 4 月 10 日
📡
一个AI花2万美元,挖出操作系统里埋了27年的漏洞
𝕏2026 年 4 月 10 日
📡
OpenAI在测一款网络安全产品,但它和刚发布的Spud模型毫无关系
𝕏2026 年 4 月 10 日
💡
2025年上半年全球AI生成儿童性虐待内容超8000起,同比增长14%
2026 年 4 月 9 日
💡
OpenAI联合NCMEC提出AI系统应嵌入禁止合成未成年人影像的硬性拦截层
2026 年 4 月 9 日
💡
加州法院已受理七起针对OpenAI的诉讼,北卡和犹他州将蓝图列入听证会议程
2026 年 4 月 9 日
💡
生成式AI正降低犯罪门槛、扩大规模并催生新型伤害
2026 年 4 月 9 日
💡
OpenAI提出更新法律、推动结构化线索、嵌入安全设计三大方向
2026 年 4 月 9 日
💡
安全过滤器需持续迭代,因攻击手段同步演化,无一劳永逸方案
2026 年 4 月 9 日
📖
AI生成的裸照正被用来勒索孩子,连聊天记录都成了把柄
AI法律2026 年 4 月 9 日
📖
AI 正在降低犯罪门槛?OpenAI 提出儿童安全新方案
AI政策2026 年 4 月 9 日
💡
Claude Mythos Preview 能自动生成零日漏洞利用代码,包括内存喷射和沙箱逃逸
2026 年 4 月 8 日
💡
漏洞利用门槛从十年经验团队坍缩为一次准确提问
2026 年 4 月 8 日
💡
该模型已在所有主流操作系统和浏览器中稳定复现零日利用
2026 年 4 月 8 日
💡
Claude Mythos Preview发现操作系统和浏览器中埋藏20年的漏洞
2026 年 4 月 8 日
💡
微软、Cisco等40多家关键基础设施维护者已获访问权限
2026 年 4 月 8 日
💡
Anthropic提供一亿美元算力额度供组织免费使用Mythos Preview
2026 年 4 月 8 日
💡
Mythos 三天发现银行系统 73 个零日漏洞,其中 19 个可远程执行代码
2026 年 4 月 8 日
💡
Anthropic 称 Mythos 几周内发现数千个零日漏洞,未用安全数据微调
2026 年 4 月 8 日
💡
12 家公司正测试 Mythos 在真实环境中的表现,但未公开部署细节
2026 年 4 月 8 日
📖
一个AI模型能自己写出零日漏洞利用代码,连没学过安全的工程师都能用
AI工程2026 年 4 月 8 日
📖
一个没公开的AI,刚挖出操作系统里埋了20年的漏洞
AI开源2026 年 4 月 8 日
📖
一个没学过安全的AI,三天挖出银行十年没发现的73个零日漏洞
AI工程2026 年 4 月 8 日
💡
Freestyle 将AI生成代码自动放入带root权限的Linux虚拟机全链路可控
2026 年 4 月 7 日
💡
每个沙箱支持嵌套虚拟化、独立用户和完整网络栈
2026 年 4 月 7 日
💡
AI代码获得与人类代码同等的基础设施待遇:版本可溯、行为可观、权限可锁
2026 年 4 月 7 日
📖
它不帮你写代码,却管起了你不敢碰的AI生成代码
AI工程2026 年 4 月 7 日
📡
OpenAI 最大的研究团队之一,不是做模型,而是盯着模型说谎
𝕏2026 年 4 月 7 日
📡
有人在AI对话里偷偷翻看系统提示词,结果被叫停
𝕏2026 年 4 月 5 日
📡
有人在生产环境直接改代码,还连着真实数据库
𝕏2026 年 4 月 4 日
💡
Anthropic 因 Claude Code 源码泄露启动大规模 DMCA 下架通知
2026 年 4 月 3 日
💡
DMCA 第512条被企业用作掩盖安全漏洞和商业黑箱的审查工具
2026 年 4 月 3 日
💡
Diebold 曾用上千份下架通知试图掩盖投票机丢失选票的事实
2026 年 4 月 3 日
📖
AI公司代码泄露后,第一反应是删光全网——但删不掉的才是重点
AI法律2026 年 4 月 3 日
💡
Anthropic因配置错误泄露Claude Code源码,并利用DMCA 512条发送大量下架通知
2026 年 4 月 2 日
💡
DMCA 512条无需举证和法院裁定,每项侵权最高可罚15万美元,导致平台倾向秒删
2026 年 4 月 2 日
💡
该条款曾被Diebold滥用封杀安全缺陷揭露,现再次被用于商业审查
2026 年 4 月 2 日
💡
Anthropic误发DMCA通知导致约8100个GitHub仓库被移除
2026 年 4 月 2 日
💡
Claude Code负责人承认操作失误并撤回大部分通知,仅保留96个fork
2026 年 4 月 2 日
💡
事故发生在Anthropic筹备IPO期间,可能引发对其工程治理能力的质疑
2026 年 4 月 2 日
📖
Claude源码泄露事件暴露DMCA 512条款的审查滥用风险
AI法律2026 年 4 月 2 日
📖
Anthropic误发8100份GitHub下架通知,称源码泄露系意外
AI工程2026 年 4 月 2 日
💡
Mercor遭供应链攻击,源头为LiteLLM的NPM包被植入恶意代码
2026 年 4 月 1 日
💡
勒索团伙Lapsus$宣称入侵Mercor并发布Slack通信、工单数据及AI交互视频
2026 年 4 月 1 日
💡
LiteLLM漏洞因日均下载数百万次影响广泛,已更换审计服务商为Vanta
2026 年 4 月 1 日
📖
AI招聘公司Mercor遭供应链攻击,LiteLLM漏洞牵出Lapsus$勒索团伙
AI开源2026 年 4 月 1 日
📡
吴恩达评论反AI联盟与AI风险争论
𝕏2026 年 4 月 1 日
📡
Anthropic与澳大利亚政府合作推进AI安全研究
𝕏2026 年 4 月 1 日
📡
npm axios 遭新型供应链攻击,周下载量达3亿
𝕏2026 年 4 月 1 日