アテンション機構
要約済み 3
-
arxiv-cs-ai 1日前 4Attention機構と拡散モデルが実は同一構造と判明The Diffusion-Attention Connection
TransformerのAttentionと拡散マップを統一する新理論が発表された。 QK「双発散」を定義し、Attention・拡散マップ・磁気拡散を単一の枠組みから導出することを証明。 Transformerの理論的基盤を深め、新アーキテクチャ設計への応用が期待される。
解説 本論文は機械学習の基盤となる三つの手法——Transformerのself-attention、拡散マップ(多様体学習の手法)、磁気ラプラシアン(グラフ上の複素数値拡散を扱う演算子)——が実は同一の数学的枠組みから派生することを示す理論研究である。 鍵となる概念は「QK双発散」で、クエリとキーの内積(pre-softmax段階のスコア)を情報幾何的な発散として再解釈したものだ。この双発散を指数化・正規化する方法を変えることで、通常のsoftmax attention、拡散マップのカーネル、磁気拡散の各形式が統一的に導出される。さらに「専門家積(複数の確率モデルの積)」と「シュレーディンガーブリッジ(二つの確率分布間の最適輸送を確率過程で結ぶ手法)」を使い、これら三者を平衡状態・非平衡定常状態・外部駆動ダイナミクスという物理的枠組みで分類・整理した。 この統一視点は、Transformerの設計原理を多様体学習や統計物理の知見から再解釈できることを意味し、新たなアーキテクチャ設計や正則化手法への理論的根拠を与える可能性がある。GPT-4oやClaudeといった実装上の比較ではなく純粋理論研究だが、アテンション機構の数学的理解を大きく深める貢献として重要度は高い。 -
arxiv-cs-ai 2日前 4研究者ら、TTS推論コストを大幅削減するWANDを発表WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models
自己回帰型音声合成モデルの計算・メモリ効率を高めるWANDフレームワークが発表された。 窓型注意機構と知識蒸留を組み合わせ、KVキャッシュを最大66.2%削減しながら品質を維持。 リアルタイムTTSや端末上での音声合成など、低リソース環境への展開を大きく前進させる。
解説 本論文は、近年高品質な音声合成を実現している自己回帰型テキスト読み上げ(AR-TTS)モデルの根本的な課題――シーケンス長に対して二次的に増大するメモリ・計算コスト――を解決するWAND(Windowed Attention and Knowledge Distillation)フレームワークを提案する。 提案手法の核心は注意機構の二分化にある。テキストや話者情報などの「条件付けトークン」に対しては全系列を参照するグローバル注意を維持し、音声トークンとして生成されるトークン列には局所的なスライディングウィンドウ注意のみを適用する。これにより推論時のKVキャッシュ(各トークンの計算結果を保持するメモリ領域)が定数量に抑えられ、長い音声でも一定のメモリ使用量で動作する。 ファインチューニング時の安定化には、最初は広い窓から徐々に窓サイズを縮小するカリキュラム学習を採用。さらに、フル注意を用いる教師モデルから生徒モデル(WAND)への知識蒸留を行い、データ効率よく高品質な合成を回復する。 3種の最新AR-TTSモデルで評価した結果、元のモデルと同等の品質を維持しつつ最大66.2%のKVキャッシュ削減と推論速度の向上を達成。長文読み上げや低メモリ環境での実用展開に直接的な意義を持ち、エッジデバイスへの音声合成モデル搭載を現実的にする成果といえる。 -
arxiv-cs-ai 2日前 4拡散型LLMの並列デコード精度を高める新手法ABS登場Attention-Based Sampler for Diffusion Language Models
研究者らが拡散言語モデル向けの新デコード戦略「ABS」を発表した。 アテンション行列の列和を用いたトークン順序付けで対数尤度最大化を理論的に近似、既存手法を凌駕。 自己回帰モデルに代わる並列デコードの実用化を加速し、推論速度向上への道を開く。
解説 本論文は、拡散型大規模言語モデル(dLLM)のデコード順序選択問題を理論的・実践的に解決する研究です。GPT-4oやClaudeに代表される自己回帰モデル(ARM)は左から右へ逐次的にトークンを生成するため、推論速度と柔軟性に本質的な制約があります。これに対し拡散型LLM(例:MDLM, PLAID等)はノイズを段階的に除去して並列デコードを行いますが、従来のデコード戦略はトークン単位の確信度にのみ依存しており、文全体の文脈構造を無視していました。著者らはこの問題を対数尤度最大化の観点から定式化し、アテンション行列(各トークンが他のトークンへ与える影響度の行列)の列和が大きいトークンほど先にデコードすべきであることを理論的に示しました。この知見に基づき「Attention-Based Sampler(ABS)」を提案。ABSは文全体のグローバルな依存関係を考慮した動的デコード順序を実現します。実験では複数のベンチマークで既存dLLMデコード手法(例:Confident Decoding等)を上回る性能を達成。ARMと比較しても並列処理による速度優位性を保ちながら生成品質を改善しており、dLLMの実用化に向けた重要な前進と言えます。