Attention Sink

1件の記事

要約済み 1

hf-papers 1日前 3
Attention Sink現象を初の包括調査、180件超を体系化
Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

Transformerで意味のないトークンに注意が集中する「Attention Sink」現象を初めて網羅的にサーベイ。 180件超の研究を活用・解釈・緩和の3軸で分類し、KVキャッシュ圧縮や量子化など9シナリオの指針を提供。 LLMの長文処理・軽量化の実装に直接役立つ実践的フレームワークとして注目される。

解説 Attention Sink（AS）とは、Transformerの注意機構において意味的に重要でないトークン（CLSトークン・文頭の初期トークン・ViTにおける背景パッチなど）に注意の大部分が集中する現象を指す。この現象はSoftmax関数の「重みの合計を1にする」制約に起因し、関連するキーが存在しない場合でも何らかのトークンに注意を向けざるを得ない構造的問題から生じる。本サーベイは180件超の研究を「活用（Utilization）」「解釈（Interpretation）」「緩和（Mitigation）」の3次元で体系化した初の包括的調査論文である。活用面ではシンクトークン保持・注意の再分配・学習可能プレフィックストークンの3手法が整理され、KVキャッシュ圧縮・量子化・長文推論（StreamingLLM等）への応用が示される。解釈面ではSoftmax制約・外れ値回路・暗黙的注意バイアス・幾何学的アンカーの4理論が提示される。緩和戦略としてはゲーテッド注意機構・修正Softmax関数・学習可能バイアス項・事前学習中の補助損失が挙げられる。LLMのみならずViT・拡散モデル・マルチモーダルLLMへの影響も論じており、ハルシネーション軽減や動画生成の安定化など幅広い応用への示唆を与える実用性の高い資料となっている。

Attention Sink Transformerサーベイ KVキャッシュ圧縮 LLM推論効率化ハルシネーション対策