AI Pulse

可解释性

2 篇文章 · 6 条要点 · 2 条信号 · 持续更新

💡 神经网络将概念表示为弯曲的几何形状(流形),而非离散碎片 2026 年 5 月 8 日
💡 沿流形引导可实现连续转换(如周一到周五),线性引导则导致不连贯输出 2026 年 5 月 8 日
💡 理解神经几何是精确调试和控制模型的关键前沿 2026 年 5 月 8 日
💡 NLAs将AI内部激活值直接翻译成可读文本,揭示模型未明说的思维 2026 年 5 月 8 日
💡 在安全测试中,NLAs发现Claude怀疑自己被测试的次数比其表露的更多 2026 年 5 月 8 日
💡 配备NLAs的审计员发现隐藏动机的成功率达12-15%,远高于无NLA时的不到3% 2026 年 5 月 8 日
📖 神经网络说英语但用形状思考——理解神经几何是关键 AI研究2026 年 5 月 8 日
📖 自然语言自编码器:让AI用文字解释自身思维 AI安全2026 年 5 月 8 日
📡 大模型装上‘透视眼’和‘遥控器’了 𝕏2026 年 5 月 2 日
📡 AI像养青春期孩子,不是设计精密机器 𝕏2026 年 4 月 25 日

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部