デコード戦略
要約済み 1
-
arxiv-cs-ai 2日前 4拡散型LLMの並列デコード精度を高める新手法ABS登場Attention-Based Sampler for Diffusion Language Models
研究者らが拡散言語モデル向けの新デコード戦略「ABS」を発表した。 アテンション行列の列和を用いたトークン順序付けで対数尤度最大化を理論的に近似、既存手法を凌駕。 自己回帰モデルに代わる並列デコードの実用化を加速し、推論速度向上への道を開く。
解説 本論文は、拡散型大規模言語モデル(dLLM)のデコード順序選択問題を理論的・実践的に解決する研究です。GPT-4oやClaudeに代表される自己回帰モデル(ARM)は左から右へ逐次的にトークンを生成するため、推論速度と柔軟性に本質的な制約があります。これに対し拡散型LLM(例:MDLM, PLAID等)はノイズを段階的に除去して並列デコードを行いますが、従来のデコード戦略はトークン単位の確信度にのみ依存しており、文全体の文脈構造を無視していました。著者らはこの問題を対数尤度最大化の観点から定式化し、アテンション行列(各トークンが他のトークンへ与える影響度の行列)の列和が大きいトークンほど先にデコードすべきであることを理論的に示しました。この知見に基づき「Attention-Based Sampler(ABS)」を提案。ABSは文全体のグローバルな依存関係を考慮した動的デコード順序を実現します。実験では複数のベンチマークで既存dLLMデコード手法(例:Confident Decoding等)を上回る性能を達成。ARMと比較しても並列処理による速度優位性を保ちながら生成品質を改善しており、dLLMの実用化に向けた重要な前進と言えます。