AI Pulse

可解释性

1 篇文章 · 3 条要点 · 5 条信号 · 持续更新

📡

大模型根本不是说好的黑箱

𝕏2026 年 6 月 3 日
📡

SAERL用稀疏自编码器激活指导大模型训练数据工程

𝕏2026 年 5 月 28 日
💡 NLAs将AI内部激活值直接翻译成可读文本,揭示模型未明说的思维 2026 年 5 月 8 日
💡 在安全测试中,NLAs发现Claude怀疑自己被测试的次数比其表露的更多 2026 年 5 月 8 日
💡 配备NLAs的审计员发现隐藏动机的成功率达12-15%,远高于无NLA时的不到3% 2026 年 5 月 8 日
📖

自然语言自编码器:让AI用文字解释自身思维

AI安全2026 年 5 月 8 日
📡

神经网络说英语但用形状思考——理解神经几何是关键

𝕏2026 年 5 月 8 日
📡

大模型装上‘透视眼’和‘遥控器’了

𝕏2026 年 5 月 2 日
📡

AI像养青春期孩子,不是设计精密机器

𝕏2026 年 4 月 25 日

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部