sparse

1件の記事

要約済み 1

hf-blog 4日前 4
スパースMoEで画像生成を効率化、新モデルがSOTA達成
Nucleus-Image: Scaling Text-to-Image with Sparse Mixture of Experts

研究チームが17BパラメータのスパースMoE拡散モデル「Nucleus-Image」を発表、推論時は約2Bのみ活性化。 Decoupled Routingでルーティング崩壊を解決し、GenEval・DPG-Bench等の主要ベンチマークで既存手法を超える性能を実現。大規模モデルの計算コスト削減と品質向上を両立する手法として、T2I生成の実用化に貢献する成果。

解説 Nucleus-Imageは17Bパラメータを持ちながらフォワードパスごとに約2Bのみ活性化するスパースMoE（複数の専門サブネットを条件付き選択する手法）を拡散モデルに初めて本格適用したモデル。最大の技術課題は拡散モデル特有のタイムステップ変調（x_mod = x_norm×(1+s(t))）がノルムをt=0.01とt=0.99で桁違いに変化させルーティングを不安定化する点で、これをルーター入力を非変調のx_normとt_embの結合、専門家入力をx_modと分離する「Decoupled Routing」で解決した。さらにテキストトークンをMoEバックボーンから除外してKV専用とし、50ステップ全体でテキストKVキャッシュを再利用することで推論コストを削減。Muon最適化器とWSM（末尾16チェックポイントを重み平均するスケジュール）の組み合わせでGenEvalを+3.2点改善。空間位置理解ではSD3.5 Largeの0.34・FLUX.1 Devの0.22に対して0.85を記録し大幅に凌駕。Apache 2.0でモデルと学習コードを公開済み。

text-to-image Mixture-of-Experts diffusion sparse