Text-to-Image

1件の記事

要約済み 1

hf-blog 5日前 4
MoE搭載の画像生成モデル「Nucleus-Image」公開、Imagen 4超えを達成
Nucleus-Image: Scaling Text-to-Image with Sparse Mixture of Experts

17Bパラメータ・MoEアーキテクチャの拡散型テキスト→画像モデル「Nucleus-Image」がApache 2.0でオープンソース公開された。アクティブパラメータ約2Bで動作し、DPG-Bench首位・OneIG-BenchでGoogle Imagen 4を上回る性能を記録。拡散モデルへのMoE本格適用という技術的突破口を開き、商用利用可能なライセンスで研究・開発への即活用が期待される。

解説 Nucleus-Imageは、スパースMoE（複数の専門サブネットから一部のみ選択活性化する手法）を拡散モデルに本格適用した17BパラメータのT2Iモデル。1回の前向きパスで約2Bパラメータのみを活性化し8.5倍の計算効率を実現する。核心的技術革新は「分離ルーティング（Decoupled Routing）」で、LLM型MoEをそのまま拡散モデルに適用するとタイムステップ依存の適応変調によりノルムが大幅変動し全トークンが同一エキスパートに集中してしまう問題を、ルーターと計算部への入力を分離することで解決した。またテキストトークンをKV参加のみに限定し、50ステップの推論全体でテキストKV計算を一度だけ行い再利用する効率化も実現している。ベンチマークではGenEval 0.87（Qwen-Image同等）、DPG-Bench 88.79（1位）、OneIG-Bench 0.522（Imagen 4の0.515超え）を記録。特に空間位置理解スコア0.85はFLUX.1 Dev（0.22）やSD3.5 Large（0.34）を大幅に上回り、MoE専門化が空間推論に特に効果的であることを示した。Apache 2.0ライセンスで重みと学習コードを完全公開しており、DPO・強化学習等の後処理研究の強力なベースラインとして期待される。

Text-to-Image Mixture of Experts 拡散モデルオープンソース画像生成