sparse
要約済み 1
-
hf-blog 4日前 4スパースMoEで画像生成を効率化、新モデルがSOTA達成Nucleus-Image: Scaling Text-to-Image with Sparse Mixture of Experts
研究チームが17BパラメータのスパースMoE拡散モデル「Nucleus-Image」を発表、推論時は約2Bのみ活性化。 Decoupled Routingでルーティング崩壊を解決し、GenEval・DPG-Bench等の主要ベンチマークで既存手法を超える性能を実現。 大規模モデルの計算コスト削減と品質向上を両立する手法として、T2I生成の実用化に貢献する成果。
解説 Nucleus-Imageは17Bパラメータを持ちながらフォワードパスごとに約2Bのみ活性化するスパースMoE(複数の専門サブネットを条件付き選択する手法)を拡散モデルに初めて本格適用したモデル。最大の技術課題は拡散モデル特有のタイムステップ変調(x_mod = x_norm×(1+s(t)))がノルムをt=0.01とt=0.99で桁違いに変化させルーティングを不安定化する点で、これをルーター入力を非変調のx_normとt_embの結合、専門家入力をx_modと分離する「Decoupled Routing」で解決した。さらにテキストトークンをMoEバックボーンから除外してKV専用とし、50ステップ全体でテキストKVキャッシュを再利用することで推論コストを削減。Muon最適化器とWSM(末尾16チェックポイントを重み平均するスケジュール)の組み合わせでGenEvalを+3.2点改善。空間位置理解ではSD3.5 Largeの0.34・FLUX.1 Devの0.22に対して0.85を記録し大幅に凌駕。Apache 2.0でモデルと学習コードを公開済み。