可解释性 — AI Pulse · 主题知识库

📡

𝕏2026 年 6 月 14 日

📡

𝕏2026 年 6 月 3 日

📡

𝕏2026 年 5 月 28 日

💡 NLAs将AI内部激活值直接翻译成可读文本，揭示模型未明说的思维 2026 年 5 月 8 日

💡 在安全测试中，NLAs发现Claude怀疑自己被测试的次数比其表露的更多 2026 年 5 月 8 日

💡 配备NLAs的审计员发现隐藏动机的成功率达12-15%，远高于无NLA时的不到3% 2026 年 5 月 8 日

📖

AI安全2026 年 5 月 8 日

📡

𝕏2026 年 5 月 8 日

📡

𝕏2026 年 5 月 2 日

📡

𝕏2026 年 4 月 25 日

📬 订阅 AI Pulse