GAN
要約済み 1
-
hf-papers 1日前 4新手法CAFMでフローモデルのFIDスコアを半減、画像生成が大幅進化Continuous Adversarial Flow Models
研究者らが、フローマッチングの損失関数を識別器に置き換えた新世代生成モデル「CAFM」を発表。 ImageNet 256pxベンチマークでFIDスコアを最大8.26→3.63へ大幅改善、既存モデルへも10エポックで適用可能。 既存フローモデルを低コストで強化できる汎用的手法として、画像生成分野への広範な応用が期待される。
解説 本論文はCAFM(Continuous Adversarial Flow Models)を提案する。フローマッチング(FM)は近年の画像・動画生成で主流だが、学習目標にユークリッド距離(L2損失)を使うため、有限容量モデルがデータ多様体(manifold)の構造を正確に捉えられず、ガイダンスなしでは分布外サンプルを生成しやすい欠点があった。CAFMはこのL2損失を「学習済み識別器」に置き換えることで、テクスチャや輪郭などの知覚的細部により敏感な目標関数を実現。識別器と生成器を同時学習するGAN的なダイナミクスにより、固定基準網の悪用(generator hacking)も防ぐ。連続時間フローに敵対的学習を統合した初の研究とされる。実験では、既存のSiT(潜在空間)とJiT(ピクセル空間)モデルをわずか10エポックのファインチューニングで後学習するだけで、ImageNet 256pxのガイダンスなしFIDをそれぞれ8.26→3.63、7.17→3.57へ劇的に改善。テキスト→画像タスクでもGenEval(0.81→0.85)とDPGベンチマーク(83.7→85.2)で改善を確認。既存モデルへの後付け適用が容易であるため実用的な波及効果が大きく、フロー系モデルの品質底上げ手法として重要な貢献と言える。