Attention機構と拡散モデルが実は同一構造と判明
The Diffusion-Attention Connection
Transformer
拡散モデル
マルコフ幾何
理論的統一
アテンション機構
要約
TransformerのAttentionと拡散マップを統一する新理論が発表された。
QK「双発散」を定義し、Attention・拡散マップ・磁気拡散を単一の枠組みから導出することを証明。
Transformerの理論的基盤を深め、新アーキテクチャ設計への応用が期待される。
無料登録でニュースレターを受け取る
毎週AIニュースのTop5をお届けします(無料)
無料登録 →
Proプランで深掘り分析・全アーカイブを読む
月額300円 / 年額2,400円 / Founding Member 5,000円(買い切り)
Proプランを見る →
原文を読む →
https://arxiv.org/abs/2604.09560
本論文は機械学習の基盤となる三つの手法——Transformerのself-attention、拡散マップ(多様体学習の手法)、磁気ラプラシアン(グラフ上の複素数値拡散を扱う演算子)——が実は同一の数学的枠組みから派生することを示す理論研究である。
鍵となる概念は「QK双発散」で、クエリとキーの内積(pre-softmax段階のスコア)を情報幾何的な発散として再解釈したものだ。この双発散を指数化・正規化する方法を変えることで、通常のsoftmax attention、拡散マップのカーネル、磁気拡散の各形式が統一的に導出される。さらに「専門家積(複数の確率モデルの積)」と「シュレーディンガーブリッジ(二つの確率分布間の最適輸送を確率過程で結ぶ手法)」を使い、これら三者を平衡状態・非平衡定常状態・外部駆動ダイナミクスという物理的枠組みで分類・整理した。
この統一視点は、Transformerの設計原理を多様体学習や統計物理の知見から再解釈できることを意味し、新たなアーキテクチャ設計や正則化手法への理論的根拠を与える可能性がある。GPT-4oやClaudeといった実装上の比較ではなく純粋理論研究だが、アテンション機構の数学的理解を大きく深める貢献として重要度は高い。