📡 X 信号

3%的注意力头一关掉，AI逻辑推理就崩了

@itarutomy 2.7万浏览 · 379 喜欢 · 82 转推 · 264 收藏 Mechanistic InterpretabilityLLM推理

LLMが論理推論をどうやって解いているかが、Attention Headレベルで解剖された（https://arxiv[.]org/html/2605.27824v1）。

「AとBが成立し、A∧B→Cというルールがあれば、Cは成立するか」を多段に繰り返す演繹推論を、LLMがどう内部処理しているかを追いかけたJAISTの研究。手法は因果媒介分析（Causal Mediation Analysis）で、Attention Head（Transformerが「どこからどの情報を拾うか」を決める部品）を1つずつ操作して推論への影響を測る。

発見はシャープだ。Llama-3.1-8B・Qwen3-8B・Phi-4で、全Headのうち約3%だけが論理推論に特化していた。この3%を無効化すると推論精度がほぼゼロに崩壊し、同じ割合でランダムに無効化した場合と比べて格段に大きな影響が出る。一方、一般知識（MMLU）への影響は軽微だった。

推論は層ごとに時系列で分業している。下位層のHeadが事実とルールを読み込み、中位層のHeadがどのルール条件が成立するかを照合し、上位層のHeadが複数ステップを統合してBFS（幅優先探索）などの探索戦略に沿って推論を前進させる。

数字も驚きだ。Llama-3.1-8B-Instructの「ルール選択」を担う単一Headの因果的影響スコアが30%超え。たった1個の部品が判断の大部分を握っていた。3%の回路を壊した後のPhi-4はProntoQA正解率44.6%まで落ちており、ほぼランダム推測の水準だ（True/Falseの2択なのでランダムなら50%）。推論の形式だけ保ったまま中身が空洞化していた。

「LLMは記憶を引き出しているだけか、推論しているのか」という問いに、「推論専用の回路が存在し、物理的に壊せる」という具体的な答えが出た。Mechanistic Interpretability（AI内部の仕組みを機械的に解析する研究領域）の中でも多段推論を分解した数少ない事例となった。

本文由 AI 翻译自英文原帖，技术名词保留英文。

查看 X 原帖

📬 订阅 AI Pulse