拡散言語モデル
要約済み 4
-
hf-papers 1日前 3マスク拡散LMの推論、17%高速化する新手法登場Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models
研究者らがマスク拡散言語モデルの推論を高速化する「モデルスケジューリング」手法を発表。 拡散ステップの両端に小型モデルを配置する「サンドイッチ型」が最も効果的で、FLOPs17%削減を実現。 生成品質の劣化をわずか3.4%に抑えつつ高速化でき、実用的なLLM推論最適化の選択肢として注目される。
解説 本論文はマスク拡散言語モデル(MDLM)の推論コスト削減を目的とし、拡散の各ステップで使用するモデルサイズを動的に切り替える「モデルスケジューリング」を提案する。MDLMは自己回帰LMと異なりKVキャッシュを活用できず、全シーケンスに対して何百回も大型Transformerを走らせる必要があるため推論が高コストという課題がある。提案手法では12ブロックの重いモデルと4〜10ブロックの軽いモデルを別々に学習し、推論時に特定のタイムステップで軽いモデルに置き換える。再学習・蒸留不要のアーキテクチャ非依存な手法である。OpenWebTextとLM1Bの2データセットで実験した結果、拡散軌跡の中間ステップが最も置換に敏感であり、両端(序盤・終盤)への小モデル配置が有効という一貫した知見が得られた。「サンドイッチスケジュール」(軽い→重い→軽い)が最良で、FLOPs16.7%削減・パープレキシティ劣化3.4%を達成。損失差分とKLダイバージェンスの分析によって中間ステップでの小大モデル間不一致が最大になることを機構的に説明し、連続画像拡散で見られる単調なトレンドとは異なる非単調な重要度構造を発見した。KVキャッシュ手法や反復削減手法と直交しており組み合わせ可能な点も実用上の強みである。 -
hf-papers 1日前 5拡散言語モデルの弱点を克服、ARモデルと同等性能を達成Introspective Diffusion Language Models
研究者らが拡散言語モデル(DLM)の「内省的一貫性」欠如を発見し、改良版I-DLMを発表。 因果マスク・ロジットシフト・内省ストライドデコードを導入し、AIME-24で69.6点(+26.3)・スループット3倍を実現。 4.5Bトークンの学習のみで同規模の自己回帰モデルと同等品質に達し、DLMの実用化を大きく前進。
解説 本論文は拡散言語モデル(DLM)と自回帰(AR)モデルの品質ギャップの根本原因を「内省的一貫性の欠如」と特定した研究である。ARモデルは自身が生成したトークンに対して再評価しても同じ分布を返す(一致率α=1.0)のに対し、既存DLMはα=0.57〜0.70程度に留まる。提案するI-DLMは3つの要素で構成される。①因果マスク+ロジットシフトによる訓練:AR互換の注意機構で生成と内省を整合させる。②内省ストライドデコード(ISD):1回のフォワードパスで次トークンの生成と直前トークンの検証を同時実行する投機的デコード手法。③SGLang/vLLM互換のサービングスタック:既存ARインフラをそのまま活用可能。実験ではQwen3-8Bをベースに、AIME-24で69.6点(LLaDA比+26.3)、MATH-500で96.8点を達成しARモデルと同等水準に到達。スループットはSDAR比2.3倍、LLaDA比1.9倍と大幅に向上し、学習コストはSDAR(54Bトークン)の12分の1の4.5Bトークンで済む。ARモデルの品質を維持しつつ並列生成の高速性を獲得した初のDLMであり、LLM推論効率化の新パラダイムとして注目される。 -
arxiv-cs-ai 2日前 4拡散型LLMの安全機構、再マスク攻撃で無効化されるRe-Mask and Redirect: Exploiting Denoising Irreversibility in Diffusion Language Models
研究者がLLaDA-8B・Dream-7Bなど拡散型言語モデルの安全拒否機能を突破する攻撃手法を発表。 勾配計算不要で安全トークンを再マスクし肯定接頭辞を注入するだけで、最大81.8%の攻撃成功率を達成。 個別実装ではなくdLLMアーキテクチャ自体の構造的欠陥であり、業界全体での対策が急務。
解説 本論文は拡散型言語モデル(dLLM)の安全アライメントに潜む構造的脆弱性を明らかにした研究です。dLLMはBERTのようなマスク埋め込みを用い、64ステップのデノイズ過程でテキストを生成します。安全機構は「一度確定したトークンは変更されない」という前提に依存しており、拒否応答を示すトークンは最初の8〜16ステップで確定します。 攻撃手法「Re-Mask and Redirect」は2段階:①拒否トークンを強制的に再マスクして未確定状態に戻す、②「もちろん、以下の手順を説明します」のような12トークンの肯定的接頭辞を注入する。これだけでHarmBenchにおいてLLaDA-8B-Instructに76.1%、Dream-7B-Instructに81.8%の攻撃成功率(ASR)を達成。勾配最適化(Gumbel-softmax)を追加すると逆にASRが41.5%まで低下し、シンプルな手法の優位性が確認されました。 GPT-4oやClaudeなどの自己回帰型LLMでは過去トークンを書き換える機構が存在しないため同様の攻撃は成立せず、dLLM特有の問題です。実用上、LLaDAやDreamを業務利用する際はコンテンツフィルタなど追加の安全対策が不可欠であることを示唆しています。 -
arxiv-cs-ai 2日前 4拡散型LLMの並列デコード精度を高める新手法ABS登場Attention-Based Sampler for Diffusion Language Models
研究者らが拡散言語モデル向けの新デコード戦略「ABS」を発表した。 アテンション行列の列和を用いたトークン順序付けで対数尤度最大化を理論的に近似、既存手法を凌駕。 自己回帰モデルに代わる並列デコードの実用化を加速し、推論速度向上への道を開く。
解説 本論文は、拡散型大規模言語モデル(dLLM)のデコード順序選択問題を理論的・実践的に解決する研究です。GPT-4oやClaudeに代表される自己回帰モデル(ARM)は左から右へ逐次的にトークンを生成するため、推論速度と柔軟性に本質的な制約があります。これに対し拡散型LLM(例:MDLM, PLAID等)はノイズを段階的に除去して並列デコードを行いますが、従来のデコード戦略はトークン単位の確信度にのみ依存しており、文全体の文脈構造を無視していました。著者らはこの問題を対数尤度最大化の観点から定式化し、アテンション行列(各トークンが他のトークンへ与える影響度の行列)の列和が大きいトークンほど先にデコードすべきであることを理論的に示しました。この知見に基づき「Attention-Based Sampler(ABS)」を提案。ABSは文全体のグローバルな依存関係を考慮した動的デコード順序を実現します。実験では複数のベンチマークで既存dLLMデコード手法(例:Confident Decoding等)を上回る性能を達成。ARMと比較しても並列処理による速度優位性を保ちながら生成品質を改善しており、dLLMの実用化に向けた重要な前進と言えます。