要約
研究者らが拡散言語モデル(DLM)の「内省的一貫性」欠如を発見し、改良版I-DLMを発表。 因果マスク・ロジットシフト・内省ストライドデコードを導入し、AIME-24で69.6点(+26.3)・スループット3倍を実現。 4.5Bトークンの学習のみで同規模の自己回帰モデルと同等品質に達し、DLMの実用化を大きく前進。
公式ソースだけを集めたAIニュースを日本語要約でお届け
Introspective Diffusion Language Models
研究者らが拡散言語モデル(DLM)の「内省的一貫性」欠如を発見し、改良版I-DLMを発表。 因果マスク・ロジットシフト・内省ストライドデコードを導入し、AIME-24で69.6点(+26.3)・スループット3倍を実現。 4.5Bトークンの学習のみで同規模の自己回帰モデルと同等品質に達し、DLMの実用化を大きく前進。
本論文は拡散言語モデル(DLM)と自回帰(AR)モデルの品質ギャップの根本原因を「内省的一貫性の欠如」と特定した研究である。ARモデルは自身が生成したトークンに対して再評価しても同じ分布を返す(一致率α=1.0)のに対し、既存DLMはα=0.57〜0.70程度に留まる。提案するI-DLMは3つの要素で構成される。①因果マスク+ロジットシフトによる訓練:AR互換の注意機構で生成と内省を整合させる。②内省ストライドデコード(ISD):1回のフォワードパスで次トークンの生成と直前トークンの検証を同時実行する投機的デコード手法。③SGLang/vLLM互換のサービングスタック:既存ARインフラをそのまま活用可能。実験ではQwen3-8Bをベースに、AIME-24で69.6点(LLaDA比+26.3)、MATH-500で96.8点を達成しARモデルと同等水準に到達。スループットはSDAR比2.3倍、LLaDA比1.9倍と大幅に向上し、学習コストはSDAR(54Bトークン)の12分の1の4.5Bトークンで済む。ARモデルの品質を維持しつつ並列生成の高速性を獲得した初のDLMであり、LLM推論効率化の新パラダイムとして注目される。