Flow Matching

2件の記事

要約済み 2

hf-papers 5時間前 4
小型モデルが12Bを超える1ステップ画像生成技術が登場
Self-Adversarial One Step Generation via Condition Shifting

外部識別器不要の1ステップ画像生成フレームワーク「APEX」が発表された。条件ベクトルのシフトで内部対抗信号を生成し、0.6BモデルがFLUX-Schnell 12Bを性能で上回る。軽量モデルでの高品質生成が可能になり、画像生成AIの民主化・高速化に貢献する。

解説 APEXは拡散・フローモデルによるテキスト→画像生成を1ステップ（NFE=1）で実現する新フレームワーク。従来手法は外部識別器（GAN系）か回帰蒸留かのトレードオフがあったが、APEXは条件ベクトルにアフィン変換（c_fake = Ac + b）を施した「偽条件」ブランチをモデル内部に設け、同一ネットワークが偽分布の速度場を推定する「自己対抗」信号を生成する。理論的にはGANの勾配形式（スコア差分）と等価だが、識別器由来の不安定な標本依存重みの代わりに定数重みw=1を用い、Fisherダイバージェンス最小化に対応する。実験では0.6BモデルがFLUX-Schnell 12B（パラメータ20倍）をGenEvalスコアで上回り（0.84 vs 0.69）、Qwen-Image 20BへのLoRAチューニングによりNFE=1でGenEval 0.89を6時間で達成（50ステップ教師の0.87を超過、推論速度15.3倍）。アーキテクチャ変更不要のプラグアンドプレイ設計でLoRAと完全互換であり、大規模モデルへの実用的な適用が容易。

テキスト→画像生成 1ステップ蒸留自己対抗学習 Flow Matching 効率的推論
hf-papers 1日前 4
新手法CAFMでフローモデルのFIDスコアを半減、画像生成が大幅進化
Continuous Adversarial Flow Models

研究者らが、フローマッチングの損失関数を識別器に置き換えた新世代生成モデル「CAFM」を発表。 ImageNet 256pxベンチマークでFIDスコアを最大8.26→3.63へ大幅改善、既存モデルへも10エポックで適用可能。既存フローモデルを低コストで強化できる汎用的手法として、画像生成分野への広範な応用が期待される。

解説本論文はCAFM（Continuous Adversarial Flow Models）を提案する。フローマッチング（FM）は近年の画像・動画生成で主流だが、学習目標にユークリッド距離（L2損失）を使うため、有限容量モデルがデータ多様体（manifold）の構造を正確に捉えられず、ガイダンスなしでは分布外サンプルを生成しやすい欠点があった。CAFMはこのL2損失を「学習済み識別器」に置き換えることで、テクスチャや輪郭などの知覚的細部により敏感な目標関数を実現。識別器と生成器を同時学習するGAN的なダイナミクスにより、固定基準網の悪用（generator hacking）も防ぐ。連続時間フローに敵対的学習を統合した初の研究とされる。実験では、既存のSiT（潜在空間）とJiT（ピクセル空間）モデルをわずか10エポックのファインチューニングで後学習するだけで、ImageNet 256pxのガイダンスなしFIDをそれぞれ8.26→3.63、7.17→3.57へ劇的に改善。テキスト→画像タスクでもGenEval（0.81→0.85）とDPGベンチマーク（83.7→85.2）で改善を確認。既存モデルへの後付け適用が容易であるため実用的な波及効果が大きく、フロー系モデルの品質底上げ手法として重要な貢献と言える。

Flow Matching 生成モデル GAN 画像生成 Post-training