勾配最適化
要約済み 1
-
hf-papers 6時間前 4LeapAlign、Fluxモデルで既存手法を全指標で凌駕LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories
フロー整合モデルを人間の好みに合わせるポスト学習手法「LeapAlign」が発表された。 長い生成軌跡を2ステップの「リープ軌跡」に圧縮し、早期ステップへの報酬勾配伝播を実現。 FluxモデルでGRPO系・直接勾配系の既存手法を全評価指標で上回り、画像生成AIの品質向上に貢献。
解説 LeapAlignは、フロー整合モデル(Flow Matching)を人間の好みに合わせるためのポスト学習手法。従来の直接勾配法(ReFL、DRaFT-LV、DRTuneなど)では、長い生成軌跡(通常25ステップ)を通じて勾配を逆伝播させるとメモリコストが膨大になり勾配爆発が起きるため、生成後半のステップしか更新できないという問題があった。画像の全体構造(レイアウト・構図)は主に早期ステップで決まるため、早期ステップの最適化が重要。 LeapAlignは完全な生成軌跡から2点のタイムステップ(k, j)をランダム選択し、x_k→x_jおよびx_j→x_0という2つの「ワンステップリープ予測」だけで構成される短縮軌跡(リープ軌跡)を構築。この軌跡のみで勾配を伝播することで、定数メモリコストで任意のステップを更新可能にした。さらに(1)勾配ディスカウンティング(ネステッド勾配項の係数をα=0.3に削減し、DRTuneが完全除去していた有用な信号を保持)、(2)軌跡類似度重み付け(実際の軌跡に近いリープ軌跡の学習損失に高い重みを付与)を導入。 Flux(FLUX.1-dev)を用いた実験では、HPSv2.1・HPSv3・PickScore・UnifiedReward・ImageRewardの全指標でDanceGRPO、MixGRPO(GRPO系)およびReFL、DRaFT-LV、DRTune(直接勾配系)を上回り、GenEvalベンチマークでも0.7420(次点MixGRPO:0.7232)と最高スコアを達成。SD3.5-Mediumでも同様の優位性を確認し、汎用性を示した。