生成モデル
要約済み 2
-
hf-papers 8時間前 3拡散モデルの各手法、数学的に等価と証明Rethinking the Diffusion Model from a Langevin Perspective
研究者らがランジュバン動力学を軸に拡散モデルの順・逆過程を統一的に導出する新フレームワークを発表。 SDE・ODE・フロー整合など異なる定式化が最大尤度の下で数学的に等価であることを厳密に証明。 VAEやスコアマッチングの直感的理解も統合され、生成モデル研究の理論的基盤が整理される。
解説 本論文は香港科技大学の研究者が執筆した理論的解説論文で、拡散モデルをランジュバン動力学の視点から体系的に再整理したものである。核心的アイデアは「ランジュバン動力学は分布上の恒等操作である」という観点で、順拡散過程(ノイズ付加)と逆拡散過程(ノイズ除去)をこの恒等操作の分割として統一的に導出する。これにより、逆過程が順過程をどのように打ち消すかという古典的疑問に直感的な答えを提供する。また、VP(分散保存)・VE-Karras(分散爆発)・Rectified Flow(整流フロー)という主要な拡散モデルの定式化が、異なるランジュバン分割として統一され、相互変換テーブルも提示される。さらに最大尤度の観点から、スコアマッチング・デノイジングスコアマッチング・フロー整合は数学的に等価であることが証明され、フロー整合が「本質的に簡単」という誤解が払拭される。普通のVAEとの比較では、拡散モデルが理論上完全な事前・事後ペアを形成する一方、VAEはELBO最適化でも厳密な等価性を保証できないことが示される。実験的な新手法提案より教育的・理論的貢献が主眼であり、研究者や学習者が異なる拡散モデル流派を統合的に理解するのに有用。 -
hf-papers 1日前 4新手法CAFMでフローモデルのFIDスコアを半減、画像生成が大幅進化Continuous Adversarial Flow Models
研究者らが、フローマッチングの損失関数を識別器に置き換えた新世代生成モデル「CAFM」を発表。 ImageNet 256pxベンチマークでFIDスコアを最大8.26→3.63へ大幅改善、既存モデルへも10エポックで適用可能。 既存フローモデルを低コストで強化できる汎用的手法として、画像生成分野への広範な応用が期待される。
解説 本論文はCAFM(Continuous Adversarial Flow Models)を提案する。フローマッチング(FM)は近年の画像・動画生成で主流だが、学習目標にユークリッド距離(L2損失)を使うため、有限容量モデルがデータ多様体(manifold)の構造を正確に捉えられず、ガイダンスなしでは分布外サンプルを生成しやすい欠点があった。CAFMはこのL2損失を「学習済み識別器」に置き換えることで、テクスチャや輪郭などの知覚的細部により敏感な目標関数を実現。識別器と生成器を同時学習するGAN的なダイナミクスにより、固定基準網の悪用(generator hacking)も防ぐ。連続時間フローに敵対的学習を統合した初の研究とされる。実験では、既存のSiT(潜在空間)とJiT(ピクセル空間)モデルをわずか10エポックのファインチューニングで後学習するだけで、ImageNet 256pxのガイダンスなしFIDをそれぞれ8.26→3.63、7.17→3.57へ劇的に改善。テキスト→画像タスクでもGenEval(0.81→0.85)とDPGベンチマーク(83.7→85.2)で改善を確認。既存モデルへの後付け適用が容易であるため実用的な波及効果が大きく、フロー系モデルの品質底上げ手法として重要な貢献と言える。