神经网络说英语但用形状思考——理解神经几何是关键

📅 2026 年 5 月 8 日 📖 约 4 分钟 @GoodfireAI on 𝕏 AI研究可解释性

神经网络或许会说英语，但它们用形状思考。理解它们丰富的神经几何是理解其工作原理的关键——也是精确调试和控制它们的关键。从今天开始，我们将陆续发布一系列关于这一研究议程的帖子。🧵 https://t.co/CE3Xw7kFGV

正如现实世界高度结构化一样，神经网络也充满了丰富的几何结构：时间、空间、数字、颜色、生命之树、新的生物标志物等都被表示为弯曲的路径和曲面。这跨模型、跨模态、跨领域都成立！（2/8）

理解这种“神经几何”的新方法是理解、改进和控制模型的关键前沿。（3/8）

为什么？就像不理解计算机的数据结构就无法理解计算机一样，不了解神经网络的表示形状就无法理解神经网络。表示是内部算法和模型行为的基础！（4/8）

一个简单的例子：一周的几天，它们位于模型激活中的圆形路径上。从周一到周五线性引导，中间会得到不连贯的输出。沿着圆形流形引导，则可以干净地从周一→周二→周三→周四→周五转换。（5/8）https://t.co/NdocpbMxvQ

另一个例子：“山地车”的图像-动作世界模型。位置在激活中表现为一条类似意大利面条的路径。沿着流形引导可以干净地移动小车（左），而线性引导则会让小车模糊地传送（中）。（6/8）https://t.co/SmkvufMDos

与这种观点相反，流行的可解释性方法（如SAE）倾向于将概念流形“打破”成许多小而看似无关的碎片，掩盖了当流形作为一个整体来看时清晰呈现的总体语义结构。（7/8）https://t.co/VuqmUqDOtY

阅读该系列的前两篇帖子：https://t.co/94XmrlPmoA 后续帖子将更详细地介绍：- 一个在流形上运行的示例机制 - 无监督发现流形 + 与SAE特征的联系 - 上下文几何

@_virgil19 我们的意思是神经网络将概念表示为弯曲的几何形状

@akushaidesu 我们投影到3维

@praveenakode 好电影，非常相似

@jryio 好问题，最终的检验是通过几何干预成功控制模型行为

@HomoVibens @DamiDina 我们挺喜欢神经几何

@sunsetroad 有趣！

@PlasmoLab 100%，谢谢阅读

@thoughtson_tech 正是如此

@naghmehfarzi 是的

@mlegls ！

📚 相关主题研究可解释性

📬 订阅 AI Pulse