Transformer
要約済み 2
-
arxiv-cs-ai 1日前 4Attention機構と拡散モデルが実は同一構造と判明The Diffusion-Attention Connection
TransformerのAttentionと拡散マップを統一する新理論が発表された。 QK「双発散」を定義し、Attention・拡散マップ・磁気拡散を単一の枠組みから導出することを証明。 Transformerの理論的基盤を深め、新アーキテクチャ設計への応用が期待される。
解説 本論文は機械学習の基盤となる三つの手法——Transformerのself-attention、拡散マップ(多様体学習の手法)、磁気ラプラシアン(グラフ上の複素数値拡散を扱う演算子)——が実は同一の数学的枠組みから派生することを示す理論研究である。 鍵となる概念は「QK双発散」で、クエリとキーの内積(pre-softmax段階のスコア)を情報幾何的な発散として再解釈したものだ。この双発散を指数化・正規化する方法を変えることで、通常のsoftmax attention、拡散マップのカーネル、磁気拡散の各形式が統一的に導出される。さらに「専門家積(複数の確率モデルの積)」と「シュレーディンガーブリッジ(二つの確率分布間の最適輸送を確率過程で結ぶ手法)」を使い、これら三者を平衡状態・非平衡定常状態・外部駆動ダイナミクスという物理的枠組みで分類・整理した。 この統一視点は、Transformerの設計原理を多様体学習や統計物理の知見から再解釈できることを意味し、新たなアーキテクチャ設計や正則化手法への理論的根拠を与える可能性がある。GPT-4oやClaudeといった実装上の比較ではなく純粋理論研究だが、アテンション機構の数学的理解を大きく深める貢献として重要度は高い。 -
hf-blog 1年前 1Transformerのテンソル変化、図解付き解説記事が公開Mastering Tensor Dimensions in TransformersJan 12, 2025•158
Transformerの各層(Embedding→Attention→FFN→LM Head)におけるテンソル形状の変化を図解付きで体系的に解説した技術記事が公開された。 Multi-Head Attentionでのヘッド分割・転置・マスク処理を具体的な数値例で追跡し、Cross-Attentionも網羅。 モデル実装や内部構造の理解を深めたいエンジニア・研究者にとって実践的な学習リソースとなる。
解説 研究論文ではなくHugging Faceの教育ブログ記事。Transformerの各コンポーネントでテンソル形状がどう変化するかを具体的な数値([1,4,768]等)で追跡する入門的内容。GPT系やClaude等の基盤モデルの内部構造を理解する第一歩として有用だが、新手法や性能改善の提案はなく、既存知識の整理・可視化に留まる。Transformer実装を初めて読む開発者や学習者にとって実用的な参考資料。