AI Pulse

神经网络说英语但用形状思考——理解神经几何是关键

神经网络或许会说英语,但它们用形状思考。理解它们丰富的神经几何是理解其工作原理的关键——也是精确调试和控制它们的关键。从今天开始,我们将陆续发布一系列关于这一研究议程的帖子。🧵 https://t.co/CE3Xw7kFGV

正如现实世界高度结构化一样,神经网络也充满了丰富的几何结构:时间、空间、数字、颜色、生命之树、新的生物标志物等都被表示为弯曲的路径和曲面。这跨模型、跨模态、跨领域都成立!(2/8)

理解这种“神经几何”的新方法是理解、改进和控制模型的关键前沿。(3/8)

为什么?就像不理解计算机的数据结构就无法理解计算机一样,不了解神经网络的表示形状就无法理解神经网络。表示是内部算法和模型行为的基础!(4/8)

一个简单的例子:一周的几天,它们位于模型激活中的圆形路径上。从周一到周五线性引导,中间会得到不连贯的输出。沿着圆形流形引导,则可以干净地从周一→周二→周三→周四→周五转换。(5/8)https://t.co/NdocpbMxvQ

另一个例子:“山地车”的图像-动作世界模型。位置在激活中表现为一条类似意大利面条的路径。沿着流形引导可以干净地移动小车(左),而线性引导则会让小车模糊地传送(中)。(6/8)https://t.co/SmkvufMDos

与这种观点相反,流行的可解释性方法(如SAE)倾向于将概念流形“打破”成许多小而看似无关的碎片,掩盖了当流形作为一个整体来看时清晰呈现的总体语义结构。(7/8)https://t.co/VuqmUqDOtY

阅读该系列的前两篇帖子:https://t.co/94XmrlPmoA 后续帖子将更详细地介绍:- 一个在流形上运行的示例机制 - 无监督发现流形 + 与SAE特征的联系 - 上下文几何

@_virgil19 我们的意思是神经网络将概念表示为弯曲的几何形状

@akushaidesu 我们投影到3维

@praveenakode 好电影,非常相似

@jryio 好问题,最终的检验是通过几何干预成功控制模型行为

@HomoVibens @DamiDina 我们挺喜欢神经几何

@sunsetroad 有趣!

@PlasmoLab 100%,谢谢阅读

@thoughtson_tech 正是如此

@naghmehfarzi 是的

@mlegls

阅读原文
📚 相关主题 研究可解释性

📬 订阅 AI Pulse

每天三次更新,不错过重要信号

▲ 回到顶部