勾配最適化

1件の記事

要約済み 1

hf-papers 6時間前 4
LeapAlign、Fluxモデルで既存手法を全指標で凌駕
LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

フロー整合モデルを人間の好みに合わせるポスト学習手法「LeapAlign」が発表された。長い生成軌跡を2ステップの「リープ軌跡」に圧縮し、早期ステップへの報酬勾配伝播を実現。 FluxモデルでGRPO系・直接勾配系の既存手法を全評価指標で上回り、画像生成AIの品質向上に貢献。

解説 LeapAlignは、フロー整合モデル（Flow Matching）を人間の好みに合わせるためのポスト学習手法。従来の直接勾配法（ReFL、DRaFT-LV、DRTuneなど）では、長い生成軌跡（通常25ステップ）を通じて勾配を逆伝播させるとメモリコストが膨大になり勾配爆発が起きるため、生成後半のステップしか更新できないという問題があった。画像の全体構造（レイアウト・構図）は主に早期ステップで決まるため、早期ステップの最適化が重要。 LeapAlignは完全な生成軌跡から2点のタイムステップ(k, j)をランダム選択し、x_k→x_jおよびx_j→x_0という2つの「ワンステップリープ予測」だけで構成される短縮軌跡（リープ軌跡）を構築。この軌跡のみで勾配を伝播することで、定数メモリコストで任意のステップを更新可能にした。さらに（1）勾配ディスカウンティング（ネステッド勾配項の係数をα=0.3に削減し、DRTuneが完全除去していた有用な信号を保持）、（2）軌跡類似度重み付け（実際の軌跡に近いリープ軌跡の学習損失に高い重みを付与）を導入。 Flux（FLUX.1-dev）を用いた実験では、HPSv2.1・HPSv3・PickScore・UnifiedReward・ImageRewardの全指標でDanceGRPO、MixGRPO（GRPO系）およびReFL、DRaFT-LV、DRTune（直接勾配系）を上回り、GenEvalベンチマークでも0.7420（次点MixGRPO:0.7232）と最高スコアを達成。SD3.5-Mediumでも同様の優位性を確認し、汎用性を示した。

画像生成ポスト学習フロー整合人間好みアライメント勾配最適化