要約
研究チームが連続拡散型言語モデル「LangFlow」を発表、離散拡散モデルと同等の性能を初めて達成。 Bregman発散によるFlow Matchingとeのノイズスケジューラを採用し、LM1BベンチマークでPPL 30.0を記録。 自己回帰モデルをゼロショットタスクで上回る結果も示し、非自己回帰型LLMの可能性を大きく広げる。
公式ソースだけを集めたAI最前線(日本語要約)
LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling
研究チームが連続拡散型言語モデル「LangFlow」を発表、離散拡散モデルと同等の性能を初めて達成。 Bregman発散によるFlow Matchingとeのノイズスケジューラを採用し、LM1BベンチマークでPPL 30.0を記録。 自己回帰モデルをゼロショットタスクで上回る結果も示し、非自己回帰型LLMの可能性を大きく広げる。
LangFlowは、連続拡散型言語モデル(DLM)が離散拡散モデルに初めて匹敵することを示した研究。従来の連続DLMはトークン埋め込み空間でノイズの付加・除去を行うが、理論的根拠の欠如や非効率なノイズスケジューリングのため、MDLMなど離散拡散モデルに性能が劣っていた。本研究の主要貢献は4点。第一に、クロスエントロピー損失をBregman発散に基づくFlow Matchingの特殊ケースとして導出し、連続DLM訓練に原理的な根拠を付与した。第二に、ODE(常微分方程式)ベースのNLL境界を新たに導出し、より正確な評価を実現した。第三に、Gumbel分布を用いた学習可能なノイズスケジューラを提案。情報量に比例してステップを配分する「情報一様原理」により、生成PPLをLM1Bで1000超から154まで大幅改善した。第四に、自己条件付けが離散拡散と逆にPPL・生成品質の双方を改善することを発見した。実験ではLM1BでPPL 30.0(MDLM 31.0に匹敵)、OWTで生成PPL 36.5(連続DLM最良)を達成。並列デコードや少ステップ蒸留への応用も可能で、高速テキスト生成の実用化に向けた重要な一歩となる。